Поиск неестественных текстов Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский Яндекс, Лаборатория комбинаторных и вероятностных методов RCDL2009. - презентация

Презентация на тему: " Поиск неестественных текстов Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский Яндекс, Лаборатория комбинаторных и вероятностных методов RCDL2009." — Транскрипт:

1 Поиск неестественных текстов Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский Яндекс, Лаборатория комбинаторных и вероятностных методов RCDL2009

2 Постановка задачи Определить, написан ли данный текст человеком или же является автоматически сгенерированным либо машинно модифицированным.

3 Машинная модификация документа текст является результатом работы синонимайзера или иной системы уникализации контента; текст является результатом перевода с иностранного языка на русский.

4 Пример работы синонимайзера Однако потом пришла перестройка, а за ней – капитализм. Однако далее пришла переделывание, а после ней – господин купон. превращается в Фраза

5 Функция Cor Пусть A и B – пара слов русского языка. P(AB) – частота пары слов AB в русском языке, P(A) и P(B) – частоты слов A и B соответственно. Рассматриваются лишь 2000 самых частых слов. Число Cor(A,B) измеряет характерность пары AB для языка.

6 Распределение пар по Cor Четыре столбца чисел соответствуют исходному тексту и результатам его обработки тремя разными синонимайзерами. 1> Cor > Cor > Cor > Cor > Cor > Cor Cor =

7 Методы решения исходной задачи 1.Сравнение с данными из заведомо хороших текстов. 2.Машинное обучение с использованием гистограммы текста по Cor в качестве источника факторов.

8 Сравнение с заведомо хорошими текстами Пусть N(T) – число редких пар в T. Для машинно сгенерированных или модифицированных текстов N(T) больше, чем для нормальных текстов примерно той же длины.

9 Статистика P(T) M(T) – среднее число редких пар в 10 ближайших к T по длине текстах T 0, …, T 9 из выборки хороших документов; D(T) – дисперсия, соответствующая выборке чисел N( T 0 ), …, N( T 9 ).

10 Параметры длины 10 близких к T текстов выбираются в трехмерном пространстве параметров (L 1, L 2, L 3 ) с евклидовой метрикой, где L 1 – число всех пар слов в T, L 2 – число пар слов из самых частых слов русского языка, L 3 – число пар слов из 2000 самых частых слов русского языка.

11 Результаты – 1 P(T) было вычислено для: текстов из базы ruscorpora, 165 неестественных текстов. Результаты: точность – 97.7%, полнота – 41.5%. Критерий: P(T) 3.0.

12 Машинное обучение Алгоритм: Gradient Boosting Machine (TreeNet); Обучающая выборка: 2000 оригинальных и 250 неестественных текстов; Тестовая выборка: 500 оригинальных и 245 неестественных текстов.

13 точность – 99.00% полнота – 77.95% точность – 95.00% полнота – 90.61% Результаты – 2

14 Сравнение с известными подходами Факторы для обучения: 10 признаков, описанных в статье A. Ntoulas, M. Najork, M. Manasse and D. Fetterly Detecting spam web pages through content analysis точность – 99.00% полнота – 90.61% точность – 95.00% полнота – 96.73%

15 точность – 99.00% полнота – 93.06% точность – 95.00% полнота – 97.95% Совместные результаты При ошибке в 1% ловится около четверти оставшегося спама

16 Спасибо!

Скачать бесплатно презентацию на тему "Поиск неестественных текстов Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский Яндекс, Лаборатория комбинаторных и вероятностных методов RCDL2009." в формате .ppt (PowerPoint)

Поиск неестественных текстов Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский Яндекс, Лаборатория комбинаторных и вероятностных методов RCDL2009. - презентация

Похожие презентации

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь

Вход в систему

Войти с помощью социльных сетей

Поиск неестественных текстов Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский Яндекс, Лаборатория комбинаторных и вероятностных методов RCDL2009. - презентация

Похожие презентации

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь