Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемwww.ashmanov.com
1 На страже уникальности (о дубликатах и методах борьбы с ними) Иван Молчанов
2 Что такое «дубликат»?
3 Источники дубликатов Различные URL одного документа ( и Преобразования документа (смена формата документа) Редактирование документа (перестановка обзацев, предложений, форматирование текста) Сознательная «уникализация» документа (спам-технологии, замена слов синонимами)
4 Кластеризация веб-дубликатов Оффлайн кластеризация – Вычисления хэш-функций » Синтаксические » Лексические Онлайн кластеризация – Анализ ссылок – Анализ текста Сравниваются не сами документы, а их «отпечатки» - наборы идентифицирующих их контрольных сумм.
5 Предварительная обработка удаление HTML разметки удаление лишних пробелов и пунктуации удаление стоп-слов ( например, союзы) стемминг слов ( нахождения основы слова для заданного исходного слова. Основа слова необязательно совпадает с морфологическим корнем слова) и тд.
6 Метод шинглов Минусы синтаксического подхода невозможность разбивать текст на важные и ненужные части для больших объемов данных необходимы очень значительные вычислительные возможности Andrei Broder (Андрей Бродер) в 1997 придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички, чешуйки»)
7 Антиплагиат Если же говорить серьезно, то алгоритмы системы построены таким образом, что обмануть «Антиплагиат» непросто. * замена русских букв (кириллицы) схожими по виду латинскими; * перестановка абзацев; * перегруппировка предложений в абзацах; * перестановка слов в предложениях; * разбиение и слияние предложений; * замена точек запятыми; * замена пробелов точками; * замена слов синонимами. Вы можете самостоятельно проверить это, проделав соответствующие манипуляции с любым документом. Таким образом, чтобы «обхитрить» систему «Антиплагиат», студенту придётся провести серьёзную вдумчивую работу над текстом, в чём и заключается его задача при написании рефератов и курсовых работ.
8 Антиплагиат
9 1 – источник - 1% уник. 2 - замена каждого 7 слова (исключая стоп-слова) - 16% уник. 3 - замена каждого 6 слова (исключая стоп-слова) - 16% уник. 4 - замена каждого 5слова (исключая стоп-слова) - 25% уник. 5 - замена каждого 4 слова (исключая стоп-слова) текст 512к - 100% уник. 6 - замена каждого 4 слова (исключая стоп-слова) ув. 1,89кб - 100% уник.
10 Лексические методы Локальные (TF) (Локальные сигнатуры рассматривают документ изолированно от коллекции и пытаются извлечь несколько слов описывающих документ, основываясь исключительно на их вхождениях в самом документе) Глобальные(IDF) (Глобальные сигнатуры используют статистику слов во всей коллекции документов или инвертированный индекс - (inverted file, инверсный файл, инвертированный файл, инвертированный список) индекс поисковой системы, в котором перечислены слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось)
11 Как защитить свой контент Один из методов: «Объявить первоисточником» (Чтобы защитить свой контент иногда достаточно разместить дубликат своей статьи на других сайтах с ссылкой на оригинал. Вариантов – море, один из них – покупка размещения статей со ссылками на собственный сайт на авторитетных сайтах. И если подобных ссылок на Вас достаточно много – то несколько копий Вашей статьи без ссылки на оригинал контента уже не принесут сайту никакого вреда.)
12 Контр-борьба Генерация невидимого (или очень слабо видимого) текста средствами HTML (Эвристики, надежно распознающий эту технику. Например, массу специфичных тегов HTML или CSS (например visibility: hidden). Не советую в данные элементы прятать, к примеру, ссылки – это чревато. ) Генерация видимого «мусора», то есть случайных буквенных цепочек ( Исключение из шинглов «несловарных» слов. Обратите внимание что «словарь» в данном случае - частотный словарь, полученный из индекса. Кстати, доля несловарных слов с таким «антидетектором» будет необычно высокой) Вставка пробелов в текст в случайных местах внутри слов и удаление их между словами. (Можно все слова текста склеить в одну цепочку из букв, фиксированным окошком вычислить шинглы). Кроме того, доля «несловарных» слов тоже будет аномально высока. Использование синонимайзера (Главная проблема русскоязычного синонимайзера – получается очень плохо читаемый текст, поэтому область применения в авторежиме очень ограничена) и тд.
13 Спасибо за внимание! Иван Молчанов, Люкс-Ар
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.