Ю.Н. Орлов Институт прикладной математики им. М.В. Келдыша РАН, кафедра высшей математики МФТИ Методы статистического анализа литературных текстов.

Презентация:



Advertisements
Похожие презентации
Работа учащегося 7Б класса Толгского Андрея. Каждое натуральное число, больше единицы, делится, по крайней мере, на два числа: на 1 и на само себя. Если.
Advertisements

Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
Число зарегистрированных преступлений. Уровень преступности.
О РЕЗУЛЬТАТАХ ПРОВЕДЕНИЯ НЕЗАВИСИМОЙ ОЦЕНКИ КАЧЕСТВА ОБУЧЕНИЯ В РАМКАХ ОЦП «Р АЗВИТИЕ ИНФОРМАЦИОННОГО ОБЩЕСТВА, ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ,
Рейтинг территорий с преимущественно городским населением по уровню преступности в 2008 году 1ЗАТО «Звездный»33,10 2Гремячинский230,00 3г. Кунгур242,00.
Тренажор Таблично умножение Отлично!
Итоги ЕГЭ-2013 в Санкт-Петербурге ХИМИЯ. ГОД Зарегистриров ано на экзамен, чел. Явилось на экзамен Получил и 100 баллов, чел. Число экзаменуемых, не сдавших.
1. Определить последовательность проезда перекрестка
Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 4500 к решению Совета депутатов города Новосибирска от
ЦИФРЫ ОДИН 11 ДВА 2 ТРИ 3 ЧЕТЫРЕ 4 ПЯТЬ 5 ШЕСТЬ 6.
Д. Дуброво д. Бортниково с. Никульское д. Подлужье д. Бакунино пос. Радужный - Песчаный карьер ООО ССП «Черкизово» - Граница сельского поселения - Граница.
Тренажёр Табличное умножение Молодцы!
27 апреля группадисциплина% ДЕ 1МП-12Английский язык57 2МП-34Экономика92 3МП-39Психология и педагогика55 4МП-39Электротехника и электроника82 5П-21Информатика.
Матемтааки ЕТ СТ 2 класс Шипилова Наталия Викторовна учитель начальных классов, ВКК Шипилова Наталия Викторовна учитель начальных классов, ВКК.
Муниципальное бюджетное общеобразовательное учреждение Ярцевская средняя общеобразовательная школа 4 Имени Героя Советского Союза О.А.Лосика Разработала:
Приложение 1 к решению Совета депутатов города Новосибирска от Масштаб 1 : 5000.
Тренажор Таблично умножение Браво!
Анализ результатов краевых диагностических работ по русскому языку в 11-х классах в учебном году.
Результаты сбора и обработки баз данных неработающего населения муниципальных общеобразовательных учреждений города Краснодара за период с 02 по 10 февраля.
Транксрипт:

Ю.Н. Орлов Институт прикладной математики им. М.В. Келдыша РАН, кафедра высшей математики МФТИ Методы статистического анализа литературных текстов

2 Текст – это нестационарный временной ряд Пусть – случайная величина (буква или буквосочетание), принимающая значения из конечного упорядоченного множества букв (пар букв, и т.д.) в алфавите. 1-ВПФР есть эмпирическая вероятность обнаружения данной буквы в тексте из N символов. «Время» – это порядковый номер буквы в тексте.

3 Стационарный временной ряд Временной ряд называется узко стационарным, если его ФР стационарна. Стационарность в широком смысле означает независимость от времени первых нескольких (обычно двух) моментов распределения.

4 Стационарные процессы: сходимость к ген.совокупности Теорема Гливенко (1933). ВФР сходится по вероятности к ген. ФР: Терема Колмогорова (1933). Если ген. ФР непрерывна, то статистика, где сходится по вероятности к функции K(z):

5 Квазистационарные ВФР и ВПФР ВПФР называется - -стационарной, если Пусть две ВПФР и удовлетворяют условию близости Тогда их ВФР удовлетворяют критерию К.

6 Сравнение мощностей норм в L 1 и в C Слева – ПФР треуг. и равном. распред. Справа – соотв. ФР

7 Уровень нестационарности текстов Для 1-ПФР Для 2-ПФР

8 Длина квазистационарности Чтобы сравнивать распределения текстов разных объемов, следует убедиться в том, что они стабилизируются. Длина стационарности текста есть такой объем, что ПФР любых фрагментов, объемы которых, отличаются не более чем на :

9 Длина квазистационарности L( ) для 1-ПФР

10 Оценка достаточной длины текста Предположим, что буквы образуют стационарный ряд. Пусть - дисперсия эмпирической частоты. Тогда статистика имеет распределение Стьюдента с N-1 степенями свободы. 0,95-квантиль составляет 1,96.

11 Оценка длины текста (продолжение) С доверительной вероятностью α отклонение эмпирической вероятности не превосходит. Пусть. Тогда. Пусть λ – требуемая точность в оценке ПФР: Эта оценка выполнена, если объем текста не меньше, чем

12 Оценка длины текста (окончание) Положим =0,01, n=32. Для уровней доверия минимальные объемы текстов оказались равны 8, 10 и 15 тыс. знаков. Для корректного сравнения текстов уровень ошибки в эмпирических частотах на этих длинах должен быть много меньше уровня нестационарности. Это выполнено для =0,05 и 0,03. Для =0,01 и =0,002 N>250 тыс. знаков.

13 Идея метода идентификации автора и жанра текста Кластеризация текстов по авторам и жанрам осуществляется на основе нормы в L 1. Тексты считаются написанными в данном жанре или данным автором, если расстояние от их ПФР до ПФР жанра или автора минимально среди имеющихся жанров и авторов.

14 Жанровые 1-ПФР

15 Средние расстояния между 1-ПФР текстов, % Жанр ,56,25,86,46,56,46,87,16,46,7 2 6,26,37,37,87,17,47,16,77,0 3 5,76,67,06,46,97,46,57,0 4 6,87,46,87,78,07,57,4 5 8,07,17,88,27,67,9 6 6,57,37,67,08,1 7 7,68,17,47,8 8 7,47,77,6 9 6,27,1 10 6,4 1-Боевик, 2-Дамский детектив, 3-Классический детектив, 4-Киберпанк, 5-Ужасы и мистика, 6-Научная фантастика, 7-Фэнтэзи, 8-Любовный роман, 9-Русская классика, 10-Советская классика.

16 Авторские 1-ПФР

17 Расстояния между 1-ПФР для авторов, % Автор Айтм. 4,47,37,67,27,58,37,87,06,8 Акун. 6,02,44,36,06,36,74,54,24,84,9 Булг. 7,35,44,06,96,68,94,96,26,76,3 Гог. 7,57,17,56,09,27,27,98,46,27,0 Донц. 6,66,16,07,92,19,05,67,17,06,6 Дост. 7,57,69,17,09,63,99,87,86,46,5 Марк. 7,15,14,27,25,99,92,86,37,16,8 Наб. 6,55,05,66,37,37,66,23,85,75,5 Толст. 7,16,56,96,68,47,27,46,74,86,0 Тург. 6,15,55,96,77,16,06,85,54,93,4

18 Отделимость одного автора по 1-ПФР

19 Расстояния между 2-ПФР для пары авторов

20 Разделение авторских текстов по расстояниям между 2-ПФР

21 Кластеризация текстов по авторам

22 Расстояния между авторскими 2-ПФР,% Автор Айтм.Акун.Булг.Гог.Донц.Дост.Марк.Наб.Толст.Тург. Айтм. 19,924,126,025,423,725,425,023,825,223,2 Акун. 12,518,422,818,123,517,517,823,119,9 Булг. 19,525,421,127,020,320,525,522,9 Гог. 21,426,223,726,023,623,823,0 Донц. 11,025,218,421,125,821,0 Дост. 18,328,025,024,321,4 Марк. 14,420,225,723,0 Наб. 16,822,821,8 Толст. 20,622,7 Тург. 16,3 Точность идентификации автора этим методом составила 90%.

23 Сравнение текстов по информационной энтропии Информационной энтропией называется функционал Для прозы значения S меняются от 3,07 до 3,09, а для поэзии от 3,11 до 3,13. Различить по этому показателю авторов или жанровую тематику текстов нельзя.

24 Другие кандидаты на авторские «инварианты» Средняя длина слова Доля гласных или согласных Доля союзных слов Среднее расстояние между выбранной парой букв Все функционалы от распределения букв не дают статистически достоверного критерия отличимости авторов и жанров

25 Оператор трансляций Пусть есть условная вероятность того, что буква отстоит от буквы на символов. Пусть также есть -ая компонента вектора вероятностей того, что буква реализуется в тексте в момент. Тогда

26 Оператор трансляций на 1 шаг выражается через 1-ПФР и 2-ПФР: По формуле полной вероятности Следовательно, 1-ПФР является с.в. оператора, отвечающим с.з. 1.

27 Норма Фробениуса След матрицы оператора соседних трансляций также может служить опознавательным знаком писателя. Он не является «авторским инвариантом», но для одного и того же автора норма разности операторов в среднем меньше, чем для разных авторов. Разрешающая способность этой нормы в среднем 0,7.

28 -спектр оператора соседних трансляций Число называется принадлежащим - спектру матрицы P, если существует матрица такая, что Сравнение между собой спектральных портретов операторов P для разных авторов в норме Хаусдорфа позволяет более точно их различить.

29 Пример спектрального портрета оператора P(1) «Портрет» романа В. Пелевина «Чапаев и пустота»

30 Хаусдорфово множество для разности операторов P 1 -P 2 Множеством Хаусдорфа называется множество значений на ед. в-ре. Точность идентифи- кации автора 95%.

31 Последовательность букв в тексте как динамическая система Временной ряд буквы «А» в романе В. Пелевина «Чапаев и пустота»

32 Авторский динамический хаос Последовательность букв образует «почти белый шум» с автокорреляцией на уровне как у логистической системы

33 Распределение расстояний между буквами в тексте

34 Распределение расстояний между буквами в тексте

35 Распределение расстояний между буквами в тексте

36 Распределение расстояний между буквами в тексте

37 Распределение расстояний между буквами в тексте

38 Распределение расстояний между буквами в тексте

39 Распределение расстояний между буквами в тексте

40 Связь с задачей распознавания образов Носитель совместного распределения в пространстве x(t),x(t-1),x(t-2)… представляет динамическую систему x(t)=F(x(t-1),…).