Поиск неестественных текстов Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский Яндекс, Лаборатория комбинаторных и вероятностных методов RCDL2009.

Презентация:



Advertisements
Похожие презентации
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Advertisements

Курс математической статистики Лекционный материал Преподаватель – В.Н. Бондаренко.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Стандартные распределения и их квантили Стандартные распределения В статистике, эконометрике и других сферах человеческих знаний очень часто используются.
Биостатистика: определение основной тенденции и дисперсии в условиях медицинской лабораторииииии.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Лекция 3 - Проверка гипотез в одномерном статистическом анализе 3.1. Основные понятия, используемые при проверке гипотез 3.2. Общий алгоритм статистической.
1-ая четверть2-ая четверть3-я четвертьгод Русский язык100%98%99% Литература100%97%99%98% Математика100% 97% Алгебра100% 98%100% Геометрия98%100%99%100%
3.1. Назначение онтологий. Информационный поиск..
Примеры обработки информации (Алгоритмы) Примеры обработки информации (Алгоритмы)
{ интервальные оценки параметров - некоторые распределения СВ связанные с нормальным распределением - доверительный интервал для выборочного среднего при.
Статистические оценки параметров распределения Доверительные интервалы.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Описательная статистика Параметры распределения. Асимметрия, эксцесс, модальность Распределение оценок студентов по разным разделам дисциплины: А – отрицательная.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
МНОГОМЕРНЫЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ ВЕРОЯТНОСТЕЙ. Совместное распределение термин, относящийся к распределению нескольких случайных величин, заданных на.
Лекция по предмету интеллектуальные информационные системы Искусственный интеллект в обработке изображений и распознавании образов на них Автор: к.т.н.
Исследование и разработка методов построения программных средств обнаружения неестественных текстов Аспирант 3 г.о. Павлов А.С. Научный руководитель: зав.
МЕТОД СКОЛЬЗЯЩЕГО КОНТРОЛЯ ДЛЯ ОЦЕНКИ КАЧЕСТВА РЕКОМЕНДАТЕЛЬНЫХ ИНТЕРНЕТ- СЕРВИСОВ А.Ю. Каминская, Р.А. Магизов Научный руководитель – Д.И. Игнатов Государственный.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Транксрипт:

Поиск неестественных текстов Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский Яндекс, Лаборатория комбинаторных и вероятностных методов RCDL2009

Постановка задачи Определить, написан ли данный текст человеком или же является автоматически сгенерированным либо машинно модифицированным.

Машинная модификация документа текст является результатом работы синонимайзера или иной системы уникализации контента; текст является результатом перевода с иностранного языка на русский.

Пример работы синонимайзера Однако потом пришла перестройка, а за ней – капитализм. Однако далее пришла переделывание, а после ней – господин купон. превращается в Фраза

Функция Cor Пусть A и B – пара слов русского языка. P(AB) – частота пары слов AB в русском языке, P(A) и P(B) – частоты слов A и B соответственно. Рассматриваются лишь 2000 самых частых слов. Число Cor(A,B) измеряет характерность пары AB для языка.

Распределение пар по Cor Четыре столбца чисел соответствуют исходному тексту и результатам его обработки тремя разными синонимайзерами. 1> Cor > Cor > Cor > Cor > Cor > Cor Cor =

Методы решения исходной задачи 1.Сравнение с данными из заведомо хороших текстов. 2.Машинное обучение с использованием гистограммы текста по Cor в качестве источника факторов.

Сравнение с заведомо хорошими текстами Пусть N(T) – число редких пар в T. Для машинно сгенерированных или модифицированных текстов N(T) больше, чем для нормальных текстов примерно той же длины.

Статистика P(T) M(T) – среднее число редких пар в 10 ближайших к T по длине текстах T 0, …, T 9 из выборки хороших документов; D(T) – дисперсия, соответствующая выборке чисел N( T 0 ), …, N( T 9 ).

Параметры длины 10 близких к T текстов выбираются в трехмерном пространстве параметров (L 1, L 2, L 3 ) с евклидовой метрикой, где L 1 – число всех пар слов в T, L 2 – число пар слов из самых частых слов русского языка, L 3 – число пар слов из 2000 самых частых слов русского языка.

Результаты – 1 P(T) было вычислено для: текстов из базы ruscorpora, 165 неестественных текстов. Результаты: точность – 97.7%, полнота – 41.5%. Критерий: P(T) 3.0.

Машинное обучение Алгоритм: Gradient Boosting Machine (TreeNet); Обучающая выборка: 2000 оригинальных и 250 неестественных текстов; Тестовая выборка: 500 оригинальных и 245 неестественных текстов.

точность – 99.00% полнота – 77.95% точность – 95.00% полнота – 90.61% Результаты – 2

Сравнение с известными подходами Факторы для обучения: 10 признаков, описанных в статье A. Ntoulas, M. Najork, M. Manasse and D. Fetterly Detecting spam web pages through content analysis точность – 99.00% полнота – 90.61% точность – 95.00% полнота – 96.73%

точность – 99.00% полнота – 93.06% точность – 95.00% полнота – 97.95% Совместные результаты При ошибке в 1% ловится около четверти оставшегося спама

Спасибо!