Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний лекции 1-2. 1.2. Количественная.

Презентация:



Advertisements
Похожие презентации
М.Ю. Харламов, ВНУ им. В.Даля, Алфавит (словарь) V Алфавит (словарь) V– это непустое конечное множество элементов (символов) Цепочка в алфавите.
Advertisements

Теория формальных языков и грамматик. Определения 1. Цепочка символов в алфавите V - любая конечная последовательность символов этого алфавита. Пустая.
Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний лекции Количественная.
Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний лекции Количественная.
Введение в формальные (аксиоматические) системы. Формальные системы - это системы операций над объектами, понимаемыми как последовательность символов.
КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ. Модель – это искусственно созданный объект, заменяющий некоторый объект реального мира и воспроизводящий ограниченное число.
Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний лекции Количественная.
Количественные характеристики случайных переменных Математическое ожидание (среднее значение) Математическое ожидание (среднее значение) Дисперсия и среднее.
Моделирование и формализация. Модель - это упрощенное представление о реальном объекте, процессе или явлении любой аналог, образ (изображение, формула,
Язык как способ представления информации Естественные и формальные языки.
Глава II. ТЕОРИЯ МНОЖЕСТВ 1. Основные понятия теории множеств Множество – некоторая совокупность объектов, называемых элементами этого множества. Понятие.
Краткий курс лекций по математике Для студентов 1 курса экономического факультета Шапошникова Е.В. к.ф.-м.н., доцент.
Лекция 2 – Идентификация закона распределения вероятностей одномерной случайной величины 2.1. Основные определения 2.2. Этапы обработки данных одномерной.
Лекция 4 Программирование на Паскале. Элементы языка Турбо Паскаль 7.0. Типы данных. Управляющие конструкции.
И Моделирование – это построение моделей реально существующих объектов; построение моделей реально существующих объектов; замена реального объекта его.
База данных – это совокупность структурированных данных определенного назначения. Структурирование данных – это объединение данных по определенным параметрам.
Лекция 3 Основные понятия теории вероятности. Опыт Событие Переменная величина.
Эконометрика Лекция 1. Введение.
ПРАВОЛИНЕЙНЫЕ ГРАММАТИКИ Обобщение автоматных грамматик. Порождающие правила в виде: A ωB или A ω где A, В – нетерминалы, ω – терминальная цепочка, допустимо:
ОСНОВЫ ИНФОРМАТИКИ.. ОГЛАВЛЕНИЕ: УРОК 1. ТЕМА:»ОСНОВНЫЕ ПОНЯТИЯ ИНФОРМАТИКИ»УРОК 1. Урок 2.ТЕМА: «ЕДИНИЦЫ ИЗМЕРЕНИЯ ИНФОРМАЦИИ». УРОК 3 ТЕМА: «КОДИРОВАНИЕ.
Транксрипт:

Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний лекции Количественная спецификация ЕЯ систем лекции 3-4, Логико-статистические методы извлечения знаний лекция 5-7. ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ 1.4. Технология автоматизированного построения словаря- тезауруса Пример исследования ЕЯ ресурса.

Лекция 6. СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА Формальное описание основных синтагм Формальное описание производных синтагм и синтагматических конструктивов Статистический анализ синтагматических конструктивов

Литература Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, книга в комплекте с CD ROM С. 54–64.

ФОРМАЛЬНОЕ ОПИСАНИЕ ОСНОВНЫХ СИНТАГМ Конструктивные ЕЯ единицы: корпус текстов, текст, контекст, сверхфразовое единство, предложение, словосочетание, слово, морфема, квази-морфема, слог, символ алфавита (буква). Синтагма непроизвольная цепочка языковых единиц нижнего уровня (символов). Синтагмы каждого верхнего уровня состоят из синтагм нижних уровней. основные : символ, слово, предложение, текст производные : морфема, квази-морфема, слог, словосочетание, сверхфразовое единство, контекст и корпус текстов. Цели выделения основных синтагм 1.Описание текста на основе теории формальных языков. 2.Выделение комплекса задач предварительного анализа текста.

Литература Филиппович Ю.Н., Родионов Е.В., Черкасова Г.А. Языковые средства диалога человека с ЭВМ. Практическое пособие / Серия «Организация взаимодействия человека с техническими средствами АСУ». В 7 кн. Кн.2. Под ред. Четверикова В.Н. М.: Высш. шк., – 159 с.

СИНТАГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА комплекс синтагматических конструктивов, построенных на основе основных и производных синтагм. Основные синтагматические конструктивы: тексты, словники (частичные и полные, прямые и обратные, частотные) упорядоченные списки синтагм словоуказатели. индексы упорядоченных списков синтагм нижнего уровня по синтагмам верхнего уровня, а также по организационным единицам (том, часть, глава, страница, строка, и т.д.).

ОСНОВНЫЕ СИНТАГМЫ (1).,. Алфавитом естественно-языкового описания предметной области будем называть множество AB, такое что: AB х алфавиты современных естественных языков (различаются множества прописных и строчных букв),, где: AB D множество цифр AB S множество специальных символов, которые могут выступать в качестве букв слов

ОСНОВНЫЕ СИНТАГМЫ (2).,. Стоп-знак слова элемент множества знаков, которые позволяют отделять в тексте слова друг от друга. Стоп-знак stW слова W является элементом транзитивного замыкания множества стоп-знаков:, где

ОСНОВНЫЕ СИНТАГМЫ (3) Словом в ЕЯ описании ПО будем называть конкатенацию элемента транзитивного замыкания множества AB и стоп- знака:

ОСНОВНЫЕ СИНТАГМЫ (4). Предложение будем рассматривать как конкатенация стоп-знака предложения ST S и элемента транзитивного замыкание слов и их разделителей:

ОСНОВНЫЕ СИНТАГМЫ (5) Текст определяется аналогично предложению как конкатенация стоп-знака и элемента транзитивного замыкания слов и их разделителей:

ПОРОЖДАЮЩИЕ ГРАММАТИКИ ЕЯ ОПИСАНИЯ ПОРМ (1) GT – грамматика, порождающая текст. GS – грамматика, порождающая предложение. GW – грамматика, порождающая слово. N – множество нетерминальных символов T = AB STW – множество терминальных символов. S – начальный нетерминальный символ. EOF = EOL = ( )

ПОРОЖДАЮЩИЕ ГРАММАТИКИ ЕЯ ОПИСАНИЯ ПОРМ (2) ОПИСАНИЕ ГРАММАТИКИ, ПОРОЖДАЮЩЕЙ ТЕКСТ GT = (N, T, P, S0) N = { S0,S1,S2,S3,S4} T = AB STW P = {S0 S1 EOF | EOF, S1 S2 S1 | S2, S2 S3 S4 | S3 | S4, S3 w S3 | ww AB T S4 s S4 | ss (STW \ EOF) T

ПОРОЖДАЮЩИЕ ГРАММАТИКИ ЕЯ ОПИСАНИЯ ПОРМ (3) ОПИСАНИЕ ГРАММАТИКИ, ПОРОЖДАЮЩЕЙ ПРЕДЛОЖЕНИЯ GS = (N, T, P, S0) N = { S0,S1,S2,S3,S4} T = AB STW P = {S0 S1 е | е,е STS T S1 S2 S1 | S2, S2 S3 S4 | S3 | S4, S3 w S3 | ww AB T S4 s S4 | ss (STW \ STS) T }

ПОРОЖДАЮЩИЕ ГРАММАТИКИ ЕЯ ОПИСАНИЯ ПОРМ (4) ОПИСАНИЕ ГРАММАТИКИ, ПОРОЖДАЮЩЕЙ СЛОВА. GW = (N, T, P, S0) N = { S0,S1,S2,S3 } T = AB STW P = {S0 S1 е | е,е STW T S1 S2 S1 | S2 S2 w S3 | ww AB T S3 s S3 | ss (STW \ EOF) T }

ФОРМАЛЬНОЕ ОПИСАНИЕ ПРОИЗВОДНЫХ СИНТАГМ И СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ Генеральная совокупность = корпус текстов ЕЯ описания ПОРМ Объект исследования отдельные синтагмы, являющиеся элементами этого корпуса текстов Основные характеристики абсолютные частоты встречаемости синтагм в корпусе текстов и составляющих его частях

ПРОИЗВОДНЫЕ СИНТАГМЫ (1) Корпус текстов G это множество текстов ЕЯ описания ПОРМ: G = { T 1, T 2,..., T N }, где N – число текстов в корпусе, T i – i-ый текст. Словосочетание w k выводится из G T., состоит ровно из k-слов, между которыми отсутствуют стоп-знаки предложения или текста: w k = w 1 w 2 w 3..w k. Любое отдельное слово w = w 1. Поставим в соответствие каждому выражению w k число, характери- зующее частоту его встречаемости в конкретном выводе G T и получим отображение F: w k E, где E – множество целых чисел. Частотная функция F = N(w k, T), где: T – конкретный текст, w k – словосочетание. Свойства частотной функции: N(w k,T)>0, если w k T, и N(w k,T)=0, если w k T. Из w = w 1 следует, что N(w,T) = N(w 1,T).

ПРОИЗВОДНЫЕ СИНТАГМЫ (2) Суммой текстов T 1 и Т 2 называется текст Т 3, получаемый удалением из текста T 1 стоп-знаков текста и присоединением к нему текста T 2 T 3 – является текстом, выводимым из G T. Доказательство 1.Если существуют T 1 и T 2, выводимые из G T, то существует конкретный вывод T 1 и T 2 из аксиомы S0. 2.T 1 и Т 2 – конечные последовательности символов терминального алфавита G T, а сама грамматика может порождать последовательности любой длины. 3.Следовательно, после вывода всех символов T 1 можно осуществить вывод дополнительно всех символов T 2. 4.Таким образом, T 3 есть текст, порождаемый G T. Будем записывать: T 3 = T 1 + T 2, T 1 +T 2 T 2 +T 1.

ПРОИЗВОДНЫЕ СИНТАГМЫ (3) Контекст С(T) непрерывный фрагмент текста T, т.е. фрагмент вывода в GT. Свойства контекста: N(w k, T 1 ) + N (w k, T 2 ) = N(w k, T 1 +T 2 ) N(w k, C(T)) N(w k, T) T = C 1 (T)+...+C q (T), где С i (T) C j (T)=, i,j (i j) [0,q] N(w k,С i (T)) N(w k, T), где С i (T) C j (T)= Замечание. N(w k, T 1 ) + N (w k, T 2 ) N(w k, T 1 +T 2 ), Тексты завершаются стоп-знаками предложения, Возможность словосочетания w k на границе T 1 и T 2 практически отсутствует. Будем считать, что N(wk, T1) + N (wk, T2) = N(wk, T1+T2).

ПРОИЗВОДНЫЕ СИНТАГМЫ (4), Частотный словник упорядоченная совокупность слов (или словосочетаний) текста и значений их частотной функции S(T) = ( ). Операции над словниками Объединение словников. Объединением словников S(T1) и S(T2) будем называть словник S(T1+T2). В объединенный словник войдут все слова и словосочетания из обоих текстов со своими частотными функциями, а для одинаковых слов (или словосочетаний) строится суммарная частотная функция. Вычитание словников. Вычитанием словников S(T1)-S(T2) будем называть словник S(T*), в который войдут только те слова (или словосочетания) из T1, для которых N(wk,T1) > N(wk,T2). Под T* понимается гипотетический текст, по которому мог бы быть построен словник S(T*).

ПРОИЗВОДНЫЕ СИНТАГМЫ (5) Ограничения синтагматической структуры: невозможность различения в словах дефиса, распознавание только слова и предложения, невозможность распознавания вложенных структур (скобочных записей, прямой речи, других формально- синтаксических конструкций). порождающая синтагматическая структура распознающая модель = «программа-транслятор» генератор синтагматического кода ЕЯ описания ПОРМ комплекс синтагматических конструктивов: словники, словоуказатели, списки словосочетаний, контексты, индексы и т.п.

ПРОИЗВОДНЫЕ СИНТАГМЫ (6) СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА это представление его в виде множества основных синтагматических конструктивов, полученных путем преобразования текста на основе его формально- языкового теоретико-множественного описания:.

СТАТИСТИЧЕСКИЙ АНАЛИЗ СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ Частотный анализ текста формирование параметрического профиля текста. Задачи частотного анализа Вычисление параметров распределения слов в модели «ранг-частота» для текстов. Построение для текстов частотных функций для слов и парных словосочетаний: N(w ij, T j ), N(w ij 2, T j )}, где w ij,w ij 2 T j, j =1,N. Построение частотных словников { S(T j ) }, где j=1,N. Вычисление общего числа элементов словника:, где R j – число элементов в словнике S(Tj). Вычисление параметров распределения слов в модели «ранг-частота» для генеральной совокупности. Нахождение параметров закона Мандельброта для генеральной совокупности.

ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (1) Динамический анализ текста выявление закономерностей изменения количественных характеристик структуры ЕЯ описания ПОРМ в течение времени t. Задачи динамического анализа Определение структуры текста; Определение структуры словников, Определение содержания словников Определение наполнения словников. Основная идея динамического анализа заключается в наблюдении за характером изменения частотных интервалов.

ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (2) ЧастотаF 1 F2F2 F 3 F 4....F N р 1 р 2 - р 3... р k - р k+1 > р k+1 Итого: В общем случае имеет место следующая таблица: Здесь: [P k,P k+1 ] – границы частотных интервалов. – тексты или словники, по которым проводится наблюдение.

ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (3) Динамика структуры текста показывает относительное изменение объемов частотных групп в текстах в течение некоторого интервала времени. где Здесь: M j – число слов в тексте T j, R t – число слов в тексте F t

ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (4) Результаты могут быть сведены в таблицу: ЧастотаF 1 F2F2 F 3 F 4....F N 1 (1,0,1) (N,0,1) 1 - р 1 (1,1,р 1 ) (N,1,р 1 ) р 2 - р 3 (2,р 2,р 3 )... р k - р k+1 > р k+1 Итого: (1,0, ) 1 В строке «итого», записывается сумма вышестоящего столбца, т.е. (1,0, ). Очевидно, что (N,0, ) = 1

ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (5) Динамика структуры словников показывает относительное изменение объемов частотных групп в словниках в течение некоторого интервала времени. где

ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (6) Динамика содержания словников показывает соотношение объемов частотных групп в течение некоторого интервала времени. где Здесь: R t – число слов в словнике F t.

ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (7) Результаты могут быть сведены в таблицу: ЧастотаF 1 F2F2 F 3 F 4....F N 1 (1,0,1) (N,0,1) 1 - р 1 (1,1,р 1 ) (N,1,р 1 ) р 2 - р 3 (2,р 2,р 3 )... р k - р k+1 > р k+1 Итого:111111

ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (8) Динамика наполнения словников характеризует «прирост» новых слов в частотные группы в течение некоторого временного интервала. где Здесь: R N – число слов в словнике F N. R t – число слов в словнике F t.

ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (9) Результаты могут быть сведены в таблицу: ЧастотаF 1 F2F2 F 3 F 4....F N 1 (1, 0, 1) р 1 (1, 1, р 1 ) 1 р 2 - р 3 (2, р 2, р 3 ) р k - р k+1 1 > р k+1 1 Итого: (1, 0, ) 1

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ Что такое синтагматическая модель текста? Приведите формальное описание основных синтагм. Приведите формальное описание производных синтагм. Приведите примеры синтагматических конструктивов. Перечислите основные этапы статистического анализа синтагм и синтагматических конструктивов.