На страже уникальности (о дубликатах и методах борьбы с ними) Иван Молчанов.

Презентация:



Advertisements
Похожие презентации
Проверка уникальности контента и рерайт Скворцов Вадим.
Advertisements

ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Редактирование и форматирование документа.. Редактирование- это изменение содержания документа. РЕДАКТИРОВАНИЕ.
Архитектура поисковых систем. Поисковая система Поисковая система – веб-сервис, предоставляющий возможность поиска информации в Интернет В основе - идея.
РАЗРАБОТКА WEB-САЙТОВ.. Создание Web-сайтов реализуется с помощью языка разметки гипертекстовых документов HTML. Тэги – инструкции браузеру, указывающие.
КУРС «WEB-ДИЗАЙН». Что такое Web-страница? То, что мы видим в окне браузера, когда заходим на какой-либо сайт! Мы видим веб-страницу сайта – ее содержимое!
Авторское право в Интернете. Если ресурс является общедоступным, то это не означает, что его можно использовать без соответствующей ссылки и разрешения.
Инструментальные средства создания Web-сайтов
Кластеризация статей кафедральной базы знаний студент 4 курса И.И. Савин 1 руководитель: И.С. Игнатьев.
Текстовая кластеризация алгоритмом ROCK студент 4 курса МИЭМ, каф. ИКТ Иван Савин 1.
Учитель информатики Артеменко Т.В. Поиск информации в Интернет.
Powerpoint Templates Page 1 Язык разметки гипертекста HTML.
ЭЛЕКТРОННАЯ ПОЧТА МОУ СОШ 7 г. Невинномысск Учитель информатики Киктенко Наталья Владимировна Урок информатики в 10 классе.
Гипертекстовые технологии в Microsoft Word класс учитель информатики и математики Шевченко Анна Константиновна МКОУ « СОШ 19» г. Новомосковск.
Язык разметки гипертекста HTML Занятие 3 © Николаева Вера Александровна,
Редактирование Редактирование-это изменение содержания документа. К операциям редактирования относятся следующие действия Набор текста; Исправление опечаток;
Логическое программировыание Презентация 5 Списки в Прологе.
Основные понятия информационного поиска YANDEX.RUОсновные понятия информационного поиска YANDEX.RU.
Транксрипт:

На страже уникальности (о дубликатах и методах борьбы с ними) Иван Молчанов

Что такое «дубликат»?

Источники дубликатов Различные URL одного документа ( и Преобразования документа (смена формата документа) Редактирование документа (перестановка обзацев, предложений, форматирование текста) Сознательная «уникализация» документа (спам-технологии, замена слов синонимами)

Кластеризация веб-дубликатов Оффлайн кластеризация – Вычисления хэш-функций » Синтаксические » Лексические Онлайн кластеризация – Анализ ссылок – Анализ текста Сравниваются не сами документы, а их «отпечатки» - наборы идентифицирующих их контрольных сумм.

Предварительная обработка удаление HTML разметки удаление лишних пробелов и пунктуации удаление стоп-слов ( например, союзы) стемминг слов ( нахождения основы слова для заданного исходного слова. Основа слова необязательно совпадает с морфологическим корнем слова) и тд.

Метод шинглов Минусы синтаксического подхода невозможность разбивать текст на важные и ненужные части для больших объемов данных необходимы очень значительные вычислительные возможности Andrei Broder (Андрей Бродер) в 1997 придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички, чешуйки»)

Антиплагиат Если же говорить серьезно, то алгоритмы системы построены таким образом, что обмануть «Антиплагиат» непросто. * замена русских букв (кириллицы) схожими по виду латинскими; * перестановка абзацев; * перегруппировка предложений в абзацах; * перестановка слов в предложениях; * разбиение и слияние предложений; * замена точек запятыми; * замена пробелов точками; * замена слов синонимами. Вы можете самостоятельно проверить это, проделав соответствующие манипуляции с любым документом. Таким образом, чтобы «обхитрить» систему «Антиплагиат», студенту придётся провести серьёзную вдумчивую работу над текстом, в чём и заключается его задача при написании рефератов и курсовых работ.

Антиплагиат

1 – источник - 1% уник. 2 - замена каждого 7 слова (исключая стоп-слова) - 16% уник. 3 - замена каждого 6 слова (исключая стоп-слова) - 16% уник. 4 - замена каждого 5слова (исключая стоп-слова) - 25% уник. 5 - замена каждого 4 слова (исключая стоп-слова) текст 512к - 100% уник. 6 - замена каждого 4 слова (исключая стоп-слова) ув. 1,89кб - 100% уник.

Лексические методы Локальные (TF) (Локальные сигнатуры рассматривают документ изолированно от коллекции и пытаются извлечь несколько слов описывающих документ, основываясь исключительно на их вхождениях в самом документе) Глобальные(IDF) (Глобальные сигнатуры используют статистику слов во всей коллекции документов или инвертированный индекс - (inverted file, инверсный файл, инвертированный файл, инвертированный список) индекс поисковой системы, в котором перечислены слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось)

Как защитить свой контент Один из методов: «Объявить первоисточником» (Чтобы защитить свой контент иногда достаточно разместить дубликат своей статьи на других сайтах с ссылкой на оригинал. Вариантов – море, один из них – покупка размещения статей со ссылками на собственный сайт на авторитетных сайтах. И если подобных ссылок на Вас достаточно много – то несколько копий Вашей статьи без ссылки на оригинал контента уже не принесут сайту никакого вреда.)

Контр-борьба Генерация невидимого (или очень слабо видимого) текста средствами HTML (Эвристики, надежно распознающий эту технику. Например, массу специфичных тегов HTML или CSS (например visibility: hidden). Не советую в данные элементы прятать, к примеру, ссылки – это чревато. ) Генерация видимого «мусора», то есть случайных буквенных цепочек ( Исключение из шинглов «несловарных» слов. Обратите внимание что «словарь» в данном случае - частотный словарь, полученный из индекса. Кстати, доля несловарных слов с таким «антидетектором» будет необычно высокой) Вставка пробелов в текст в случайных местах внутри слов и удаление их между словами. (Можно все слова текста склеить в одну цепочку из букв, фиксированным окошком вычислить шинглы). Кроме того, доля «несловарных» слов тоже будет аномально высока. Использование синонимайзера (Главная проблема русскоязычного синонимайзера – получается очень плохо читаемый текст, поэтому область применения в авторежиме очень ограничена) и тд.

Спасибо за внимание! Иван Молчанов, Люкс-Ар