Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний лекции 1-2. 1.2. Количественная.

Презентация:



Advertisements
Похожие презентации
Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний лекции Количественная.
Advertisements

Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Предмет и методы Лекция 2.
ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
Презентация к уроку по алгебре (10 класс) на тему: Презентация. Применение математической статистики в школе.
Статистическая проверка статистических гипотез.. Нулевая гипотеза - выдвинутая гипотеза. Конкурирующая гипотеза - - гипотеза, которая противоречит нулевой.
Лекция 1 «Введение». Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов. Специфической.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Стохастическая линия в школьном курсе математики.
1.Основные понятия случайной величины 1.1 Классификация случайных процессов.
Основы статистики Краткий конспект.. 1. Статистика (лат.status – государство, его состояние, определяемое по результатам наблюдения) – наука, изучающая.
Метод наименьших квадратов В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей функции получили.
Минаева Татьяна Александровна Демьяненко Ирина Николаевна.
Основы корреляционного анализа Лекция 21. лекция 12 для студентов 1 курса, обучающихся по специальности – Клиническая психология д.б.н., профессор.
Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Ковариация. Коэффициент корреляции. Корреляционный момент Работу выполнила: Студентка группы 2У00 Нагорнова Е.А.
Транксрипт:

Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний лекции Количественная спецификация ЕЯ систем лекции 3-4, Логико-статистические методы извлечения знаний лекция 5-7. ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ 1.4. Технология автоматизированного построения словаря- тезауруса Пример исследования ЕЯ ресурса.

Лекции 3-4. КОЛИЧЕСТВЕННАЯ СПЕЦИФИКАЦИЯ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ СИСТЕМ Статистический анализ ЕЯ описания. Модель «ранг-частота». Закон Ципфа. Формула Мандельброта. Статистическое распределение в модели «ранг-частота». Построение ядра ЕЯ описания.

Литература Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, книга в комплекте с CD ROM С. 34–45.

СТАТИСТИЧЕСКИЙ АНАЛИЗ ЕСТЕСТВЕННО-ЯЗЫКОВОГО ОПИСАНИЯ Лингвистическая статистика, лингвостатистика раздел языкознания, занимающийся исследованиями статистическими методами количественных закономерностей в языке и речи. Энциклопедия «Русский язык» (1) в широком смысле область применения статистических методов в языкознании (то есть опирающаяся на математическую статистику подсчетов и измерений при изучении языка и речи); (2) в узком смысле изучение некоторых математических проблем, связанных с лингвистическим материалом, главным образом с типами статистических распределений языковых единиц в тексте.

ПОНЯТИЯ ЛИНГВИСТИЧЕСКОЙ СТАТИСТИКИ ТЕКСТ последовательность лингвистических единиц: букв, морфем, словоформ, словосочетаний, предложений и др. количественные характеристики лингвистических форм: употребительность, совместная встречаемость, законы распределения в тексте, их физические размеры. ОСНОВНЫЕ ПОНЯТИЯ И КАТЕГОРИИ ЛИНГВОСТАТИСТИКИ: генеральная совокупность, выборки, частоты и вероятности, вероятностные распределения и статистические оценки. ВИДЫ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ: Тексты (корпусы текстов). Языковые единицы лингвистического уровня.

ТЕОРИЯ ЧАСТОТ СЛОВ Предпосылки теории частот слов А. Методологические (концептуальные) суждения о мире Б. Эмпирические наблюдения В. Измерения Г. Практические приложения

МЕТОДОЛОГИЧЕСКИЕ ПРЕДПОСЫЛКИ ТЕОРИИ ЧАСТОТ СЛОВ РЕАЛЬНЫЙ МИР (ПОРМ) МЕТАЗНАНИЕ ЗНАНИЕ ОБ ОРГАНИЗАЦИИ ЯЗЫКОВЫХ ЕДИНИЦ (СИНТАГМ): …, морфемы, словоформы, словосочетания, предложения, …, тексты, …

ЭМПИРИЧЕСКИЕ НАБЛЮДЕНИЯ ТЕОРИИ ЧАСТОТ СЛОВ Значительные количественные (номенклатурные) и комбинаторные ограничения на использование языковых единиц. Существенная избыточность некоторых типов языковых единиц. Сложная иерархическая структура синтагм. Последовательная во времени организация языковых единиц.

ИЗМЕРЕНИЯ ТЕОРИИ ЧАСТОТ СЛОВ Исследования произведений А.С.Пушкина: словоупотреблений – ; разных слов – Исследования языковой деятельности школьников: корпус текстов(писем, сочинений, заданий и т.п.) – ; словоупотреблений – ; разных словоформ – ; разных слов – Исследования современных английских текстов: словоупотреблений – ; разных словоформ в книжных текстах – , в разговорных – Исследования французской разговорной речи: 50% словоупотреблений – это 37 слов, 75% – 120 слов, 90% – 887 слов; 95% словоупотреблений языка телефонных разговоров – 737 слов.

ПРАКТИЧЕСКИЕ ПРИЛОЖЕНИЯ ТЕОРИИ ЧАСТОТ СЛОВ Криптография Стенографирование Полиграфия Редакционно-издательская подготовка рукописей Распознавание текстов (печатных и рукописных) Распознавание аудиовизуальной речи Автоматизированное создание баз данных Автоматический перевод Сжатие данных Информационный поиск Автоматическое индексирование и реферирование

МОДЕЛЬ «РАНГ-ЧАСТОТА» Жан.-Батист Эступ (Jеаn Bарtistе Estоuр). Джордж Кингсли Зипф (Gеоrgе Kingslеу Ziрf),

ОПРЕДЕЛЕНИЯ МОДЕЛИ «РАНГ-ЧАСТОТА» Ранг r Слово W(r) Частота f(r) 1W(1)f(1) 2W(2)f(2) … rW(r)f(r) Пример: Ранг r Слово W(r) Частота f(r) 1the245 2of136 3terms98 4to81 5a65 6and61 7in55 8we52...……

ЗАКОН ЧАСТОТ СЛОВ ЦИПФА i(k, r)/k = 0.1 r -1 = 1/(10 r), (1.0) где: i(k,r)/k – относительная частота слова в тексте, k – общее число слов в тексте, r – ранг слова, т.е. его порядковый номер в упорядоченном по убыванию частотной функции словнике.

ЛИТЕРАТУРА Дж. Солтон. Динамические библиотечные информационные системы. М.: Наука, Б.Мандельброт. Теория информации и психолингвистика: теория частот слов // Математические методы в социальных науках / Сб. статей под ред. П.Лазарсфельда и Н.Генри. М.: Прогресс, – С. 316–337.

«ВЫВОД» ЗАКОНА ЧАСТОТ СЛОВ (1) Текст случайная последовательность символов (букв и пробелов). Пробелы обозначают границы между словами. Обозначим: W(r) слово; r ранг слова; k количество слов; i (r, k)/k относительная частота слова; р (r) вероятность слова; р 0 вероятность пробела; М количество типов букв, М>1, (1 р о )/М вероятность буквы в тексте; m количество букв в слове. Это может быть записано как p 0 exp{- m}, где =log (M/(1-p 0 )) положительная величина, зависящая от р о и М. Вероятность слова, состоящего из m букв:

«ВЫВОД» ЗАКОНА ЧАСТОТ СЛОВ (2) Букв в слове Типов слов Пример: пробел: _; буквы: a,b,c; M=3. Типов словВер-ть слова 01_ Ma,b,c M2M2 aa, ab, ac, ba, bb, bc, ca, cb, cc M3aaa, aab, aac, aba, abb, abc,… Ранг … 12 … Частота ~ 62 ~ 15 … … Вер-ть … … Зависимость между числом букв m и рангом слова r Пример: объем текста 1000 символов; пробелов ~ 250, {a,b,c} ~ 62; {aa,…cc} ~ 15; {aaa,…ccc} ~ 3.

«ВЫВОД» ЗАКОНА ЧАСТОТ СЛОВ (3)

«ВЫВОД» ЗАКОНА ЧАСТОТ СЛОВ (4) Зависимость между рангом и вероятностью: ступенчатая функция, которая постоянна, когда r изменяется между двумя (М m 1)/(М 1), соответствуя последовательным значениям т. Если m велико, то: r (М m 1)/(М 1), r (М m 1)/(М 1); r (Мm 1)/(М 1), или

«ВЫВОД» ЗАКОНА ЧАСТОТ СЛОВ (5) Вероятность слова из m букв Где: B = /log M ; =log (M/(1-p0)); Р = p 0 (М1): Связь между вероятностью слова и его рангом почти идентична закону Ципфа при значениях B = -1 и P = 0.1

ФОРМУЛА МАНДЕЛЬБРОТА «Поведение» наиболее часто употребляющихся слов, а также редких, которые характеризуют «богатство словарного состава» текста не соответствует закону Ципфа. Формула Б.Мандельброта (Bеnоit Mаndеlbrоt) i(k,r) = рk (r+v) -b, где: b, k, v – const (1.1)

ПАРАМЕТРЫ ФОРМУЛЫ МАНДЕЛЬБРОТА

ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (1) Получим выражения для приближенной оценки параметров в формуле Мандельброта Для этого выполним следующие преобразования: где: – относительная частота встречаемости слова. Таким образом, имеем: где: (1.2)

ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (2) Представим формулу (1.2) в виде степенного многочлена Тейлора:

ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (3) Если коэффициенты в многочлене Тейлора обозначить через С 0,C 1,...,C n, то будем иметь:

ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (4) Откуда имеем приближенные выражения для параметров через коэффициенты

ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (5) Получим коэффициенты степенного ряда методом наименьших квадратов по имеющимся значениям частотной функции. Имеем S(T) = ( ). S(T) = (), где - относительная частота слова w в тексте T. Введем обозначения:

ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (6) Будем искать аппроксимирующую функцию в виде многочлена: для этого необходимо минимизировать следующую функцию: Вычислим частные производные этой функции и приравняем их к 0.

ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (7) Получаем систему линейный уравнений, относительно С 0,..,C n :

ОЦЕНКА ПАРАМЕТРОВ ФОРМУЛЫ МАНДЕЛЬБРОТА (8) Более точные значения оценок параметров могут быть получены для закона Ципфа. В этом случае, имеет место линейная зависимость логарифма относительной частоты слова от логарифма его ранга: Используя метод наименьших квадратов, также можно найти значения коэффициентов для прямой : ; ;

СТАТИСТИЧЕСКОЕ РАСПРЕДЕЛЕНИЕ В МОДЕЛИ «РАНГ-ЧАСТОТА» Получи м статистический закон распределения слов по частоте: Условие нормировки: Вычислим интеграл и найдем нормировочное выражение: Закон распределения слов по частоте можно записать в виде: (1.3)

ПОЛУЧЕНИЕ СТАТИСТИЧЕСКОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ СЛОВ В МОДЕЛИ «РАНГ-ЧАСТОТА» (1) Вычислим математическое ожидание и дисперсию. Вычислим начальный момент второго порядка: Воспользуемся формулой для вычисления дисперсии:.

ПОЛУЧЕНИЕ СТАТИСТИЧЕСКОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ СЛОВ В МОДЕЛИ «РАНГ-ЧАСТОТА» (2) Математическое ожидание и дисперсия: ; Используя метод моментов, можно получить значения параметров статистического распределения (1.3). Из формул (1.4) имеем: ; Здесь, E и D – математическое ожидание и дисперсия в генеральной совокупности. (1.4)

ПОСТРОЕНИЕ ЯДРА ЕСТЕСТВЕННО-ЯЗЫКОВОГО ОПИСАНИЯ Спецификация ЕЯ описания ПОРМ Лексический состав Соотнесение с другими ЕЯ-описаниями Выделение конкретной ПОРМ. Разделение ЕЯ-описания на подобласти. Формирования корпуса текстов, релевантных изучаемой ПОРМ Формирование ядра релевантных текстов с использованием статистического критерия согласия для сравнения их количественных спецификаций Критерии согласия (к-ты корреляции): Пирсона (E.S.Pеаrsоn), Спирмена (C.Sреаrmаn), Кендалла (M.G.Kеndаll), дихотомический (в случае преобразования ранговых шкал), статистики для проверки значимости разностей пар, критерий согласия Вилкоксона (F.Wilсохоn) и др.

ЛИТЕРАТУРА Дж.Гласс, Дж.Стенли. Статистические методы в педагогике и психологии. Используемый материал: с. 142–165. Л.Закс. Статистическое оценивание / Пер. с нем. В.Н.Варыгина. Под ред. Ю.П.Адлера, В.Г.Горского. М.: Статистика, – 600 с. Используемый материал: с. 286–287. В.Е. Гмурман. Теория вероятностей и математическая статистика. М.: Высшая школа, 1998.

ОПРЕДЕЛЕНИЕ ОДНОРОДНОСТИ ТЕКСТОВ (1) АЛГОРИТМ ОПРЕДЕЛЕНИЯ ОДНОРОДНОСТИ ДВУХ ТЕКСТОВ (тексты – T1, Т2; частотные словники – S(T1), S(T2)) 1. Построение упорядоченных множества слов: S1 = ( w11, w12, w13,...,w1N ), S2 = ( w21, w22, w23,...,w2M ). 2. Нумерация элементы множеств S1 и S2 : S1 = (1,2,3,4,5,6...N), S2 = (1,3,2,5,N,4, N+1,N+2,...). 3. Добавление относительной частоты встречаемости слов. 4. Объединение и упорядочение множеств S1 и S2. 5. Нумерация элементов объединенного множества. 6. Суммирование индексов элементов множества S1 (Wнабл).

ОПРЕДЕЛЕНИЕ ОДНОРОДНОСТИ ТЕКСТОВ (2) N > 25, M > 25 Wнижн. кр. Wнабл Wверхн. кр., где Q – половина уровня доверия = /2; z кр находится по таблице функции Лапласа по равенству,

ПОСТРОЕНИЕ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ НА ОСНОВЕ ЭТАЛОННОГО ТЕКСТА ЗВЕЗДООБРАЗНАЯ ТОПОЛОГИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ. Способ предполагает наличие эталонного текста Этапы построения ядра 1. Выбор эталонного текста. 2. Проверка гипотезы об однородности текстов T e L T i. 3. Включение текста T i в корпус текстов G.

ЛИНЕЙНАЯ СХЕМА ПОСТРОЕНИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ ЛИНЕЙНАЯ ТОПОЛОГИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ Эталонным текстом является текущий текст Этапы построения ядра 1.Выбор текста T i. 2.Включение текста T i в корпус текстов G. 3.Выбор эталонного текста (T e = T i или T e = Σ T i ) 4.Выбор текста T i+1. 5.Проверка гипотезы об однородности текстов T e LT i+1. 6.Включение текста T i+1 в корпус текстов G.

ПОЛНОСВЯЗНАЯ СХЕМА ПОСТРОЕНИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ ПОЛНОСВЯЗНАЯ СЕТЕВАЯ ТОПОЛОГИЯ ЯДРА ЕЯ ОПИСАНИЯ ПОРМ Каждый текст T i корпуса G является эталонным Этапы построения ядра 1. Включение текстов T i-1, T i-2, T i-3, … и т.д. в корпус G. 2. Выбор текста Ti. 3. Выбор эталонных текстов: T e1 = T i-1, T e2 = T i-2, T e3 = T i-3, … и т.д. 4. Проверка гипотезы об однородности текстов: T e1 LT i, T e2 LT i, T e3 LT i, … и т.д. 5. Включение текста T i в корпус текстов G.

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ Опишите модель текста «ранг-частота». Сформулируйте закон частот слов Ципфа. «Выведите» закон Ципфа. Напишите формулу Мандельброта для закона частот слов. Определите значения коэффициентов в формуле Мандельброта. Получите (выведите) статистическое распределение «ранг- частота». Перечислите методы построения ядра ЕЯ описания ПОРМ. Перечислите этапы построения ядра ЕЯ описания ПОРМ на основе эталонного текста. Опишите линейную схему построения ядра ЕЯ описания ПОРМ. Опишите полносвязную схему построения ядра ЕЯ описания ПОРМ.