Поиск неестественных текстов Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский Яндекс, Лаборатория комбинаторных и вероятностных методов RCDL2009
Постановка задачи Определить, написан ли данный текст человеком или же является автоматически сгенерированным либо машинно модифицированным.
Машинная модификация документа текст является результатом работы синонимайзера или иной системы уникализации контента; текст является результатом перевода с иностранного языка на русский.
Пример работы синонимайзера Однако потом пришла перестройка, а за ней – капитализм. Однако далее пришла переделывание, а после ней – господин купон. превращается в Фраза
Функция Cor Пусть A и B – пара слов русского языка. P(AB) – частота пары слов AB в русском языке, P(A) и P(B) – частоты слов A и B соответственно. Рассматриваются лишь 2000 самых частых слов. Число Cor(A,B) измеряет характерность пары AB для языка.
Распределение пар по Cor Четыре столбца чисел соответствуют исходному тексту и результатам его обработки тремя разными синонимайзерами. 1> Cor > Cor > Cor > Cor > Cor > Cor Cor =
Методы решения исходной задачи 1.Сравнение с данными из заведомо хороших текстов. 2.Машинное обучение с использованием гистограммы текста по Cor в качестве источника факторов.
Сравнение с заведомо хорошими текстами Пусть N(T) – число редких пар в T. Для машинно сгенерированных или модифицированных текстов N(T) больше, чем для нормальных текстов примерно той же длины.
Статистика P(T) M(T) – среднее число редких пар в 10 ближайших к T по длине текстах T 0, …, T 9 из выборки хороших документов; D(T) – дисперсия, соответствующая выборке чисел N( T 0 ), …, N( T 9 ).
Параметры длины 10 близких к T текстов выбираются в трехмерном пространстве параметров (L 1, L 2, L 3 ) с евклидовой метрикой, где L 1 – число всех пар слов в T, L 2 – число пар слов из самых частых слов русского языка, L 3 – число пар слов из 2000 самых частых слов русского языка.
Результаты – 1 P(T) было вычислено для: текстов из базы ruscorpora, 165 неестественных текстов. Результаты: точность – 97.7%, полнота – 41.5%. Критерий: P(T) 3.0.
Машинное обучение Алгоритм: Gradient Boosting Machine (TreeNet); Обучающая выборка: 2000 оригинальных и 250 неестественных текстов; Тестовая выборка: 500 оригинальных и 245 неестественных текстов.
точность – 99.00% полнота – 77.95% точность – 95.00% полнота – 90.61% Результаты – 2
Сравнение с известными подходами Факторы для обучения: 10 признаков, описанных в статье A. Ntoulas, M. Najork, M. Manasse and D. Fetterly Detecting spam web pages through content analysis точность – 99.00% полнота – 90.61% точность – 95.00% полнота – 96.73%
точность – 99.00% полнота – 93.06% точность – 95.00% полнота – 97.95% Совместные результаты При ошибке в 1% ловится около четверти оставшегося спама
Спасибо!