Ю.Н. Орлов Институт прикладной математики им. М.В. Келдыша РАН, кафедра высшей математики МФТИ Методы статистического анализа литературных текстов
2 Текст – это нестационарный временной ряд Пусть – случайная величина (буква или буквосочетание), принимающая значения из конечного упорядоченного множества букв (пар букв, и т.д.) в алфавите. 1-ВПФР есть эмпирическая вероятность обнаружения данной буквы в тексте из N символов. «Время» – это порядковый номер буквы в тексте.
3 Стационарный временной ряд Временной ряд называется узко стационарным, если его ФР стационарна. Стационарность в широком смысле означает независимость от времени первых нескольких (обычно двух) моментов распределения.
4 Стационарные процессы: сходимость к ген.совокупности Теорема Гливенко (1933). ВФР сходится по вероятности к ген. ФР: Терема Колмогорова (1933). Если ген. ФР непрерывна, то статистика, где сходится по вероятности к функции K(z):
5 Квазистационарные ВФР и ВПФР ВПФР называется - -стационарной, если Пусть две ВПФР и удовлетворяют условию близости Тогда их ВФР удовлетворяют критерию К.
6 Сравнение мощностей норм в L 1 и в C Слева – ПФР треуг. и равном. распред. Справа – соотв. ФР
7 Уровень нестационарности текстов Для 1-ПФР Для 2-ПФР
8 Длина квазистационарности Чтобы сравнивать распределения текстов разных объемов, следует убедиться в том, что они стабилизируются. Длина стационарности текста есть такой объем, что ПФР любых фрагментов, объемы которых, отличаются не более чем на :
9 Длина квазистационарности L( ) для 1-ПФР
10 Оценка достаточной длины текста Предположим, что буквы образуют стационарный ряд. Пусть - дисперсия эмпирической частоты. Тогда статистика имеет распределение Стьюдента с N-1 степенями свободы. 0,95-квантиль составляет 1,96.
11 Оценка длины текста (продолжение) С доверительной вероятностью α отклонение эмпирической вероятности не превосходит. Пусть. Тогда. Пусть λ – требуемая точность в оценке ПФР: Эта оценка выполнена, если объем текста не меньше, чем
12 Оценка длины текста (окончание) Положим =0,01, n=32. Для уровней доверия минимальные объемы текстов оказались равны 8, 10 и 15 тыс. знаков. Для корректного сравнения текстов уровень ошибки в эмпирических частотах на этих длинах должен быть много меньше уровня нестационарности. Это выполнено для =0,05 и 0,03. Для =0,01 и =0,002 N>250 тыс. знаков.
13 Идея метода идентификации автора и жанра текста Кластеризация текстов по авторам и жанрам осуществляется на основе нормы в L 1. Тексты считаются написанными в данном жанре или данным автором, если расстояние от их ПФР до ПФР жанра или автора минимально среди имеющихся жанров и авторов.
14 Жанровые 1-ПФР
15 Средние расстояния между 1-ПФР текстов, % Жанр ,56,25,86,46,56,46,87,16,46,7 2 6,26,37,37,87,17,47,16,77,0 3 5,76,67,06,46,97,46,57,0 4 6,87,46,87,78,07,57,4 5 8,07,17,88,27,67,9 6 6,57,37,67,08,1 7 7,68,17,47,8 8 7,47,77,6 9 6,27,1 10 6,4 1-Боевик, 2-Дамский детектив, 3-Классический детектив, 4-Киберпанк, 5-Ужасы и мистика, 6-Научная фантастика, 7-Фэнтэзи, 8-Любовный роман, 9-Русская классика, 10-Советская классика.
16 Авторские 1-ПФР
17 Расстояния между 1-ПФР для авторов, % Автор Айтм. 4,47,37,67,27,58,37,87,06,8 Акун. 6,02,44,36,06,36,74,54,24,84,9 Булг. 7,35,44,06,96,68,94,96,26,76,3 Гог. 7,57,17,56,09,27,27,98,46,27,0 Донц. 6,66,16,07,92,19,05,67,17,06,6 Дост. 7,57,69,17,09,63,99,87,86,46,5 Марк. 7,15,14,27,25,99,92,86,37,16,8 Наб. 6,55,05,66,37,37,66,23,85,75,5 Толст. 7,16,56,96,68,47,27,46,74,86,0 Тург. 6,15,55,96,77,16,06,85,54,93,4
18 Отделимость одного автора по 1-ПФР
19 Расстояния между 2-ПФР для пары авторов
20 Разделение авторских текстов по расстояниям между 2-ПФР
21 Кластеризация текстов по авторам
22 Расстояния между авторскими 2-ПФР,% Автор Айтм.Акун.Булг.Гог.Донц.Дост.Марк.Наб.Толст.Тург. Айтм. 19,924,126,025,423,725,425,023,825,223,2 Акун. 12,518,422,818,123,517,517,823,119,9 Булг. 19,525,421,127,020,320,525,522,9 Гог. 21,426,223,726,023,623,823,0 Донц. 11,025,218,421,125,821,0 Дост. 18,328,025,024,321,4 Марк. 14,420,225,723,0 Наб. 16,822,821,8 Толст. 20,622,7 Тург. 16,3 Точность идентификации автора этим методом составила 90%.
23 Сравнение текстов по информационной энтропии Информационной энтропией называется функционал Для прозы значения S меняются от 3,07 до 3,09, а для поэзии от 3,11 до 3,13. Различить по этому показателю авторов или жанровую тематику текстов нельзя.
24 Другие кандидаты на авторские «инварианты» Средняя длина слова Доля гласных или согласных Доля союзных слов Среднее расстояние между выбранной парой букв Все функционалы от распределения букв не дают статистически достоверного критерия отличимости авторов и жанров
25 Оператор трансляций Пусть есть условная вероятность того, что буква отстоит от буквы на символов. Пусть также есть -ая компонента вектора вероятностей того, что буква реализуется в тексте в момент. Тогда
26 Оператор трансляций на 1 шаг выражается через 1-ПФР и 2-ПФР: По формуле полной вероятности Следовательно, 1-ПФР является с.в. оператора, отвечающим с.з. 1.
27 Норма Фробениуса След матрицы оператора соседних трансляций также может служить опознавательным знаком писателя. Он не является «авторским инвариантом», но для одного и того же автора норма разности операторов в среднем меньше, чем для разных авторов. Разрешающая способность этой нормы в среднем 0,7.
28 -спектр оператора соседних трансляций Число называется принадлежащим - спектру матрицы P, если существует матрица такая, что Сравнение между собой спектральных портретов операторов P для разных авторов в норме Хаусдорфа позволяет более точно их различить.
29 Пример спектрального портрета оператора P(1) «Портрет» романа В. Пелевина «Чапаев и пустота»
30 Хаусдорфово множество для разности операторов P 1 -P 2 Множеством Хаусдорфа называется множество значений на ед. в-ре. Точность идентифи- кации автора 95%.
31 Последовательность букв в тексте как динамическая система Временной ряд буквы «А» в романе В. Пелевина «Чапаев и пустота»
32 Авторский динамический хаос Последовательность букв образует «почти белый шум» с автокорреляцией на уровне как у логистической системы
33 Распределение расстояний между буквами в тексте
34 Распределение расстояний между буквами в тексте
35 Распределение расстояний между буквами в тексте
36 Распределение расстояний между буквами в тексте
37 Распределение расстояний между буквами в тексте
38 Распределение расстояний между буквами в тексте
39 Распределение расстояний между буквами в тексте
40 Связь с задачей распознавания образов Носитель совместного распределения в пространстве x(t),x(t-1),x(t-2)… представляет динамическую систему x(t)=F(x(t-1),…).