Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемit-claim.ru
1 Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний лекции Количественная спецификация ЕЯ систем лекции 3-4, Логико-статистические методы извлечения знаний лекция 5-7. ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ 1.4. Технология автоматизированного построения словаря- тезауруса Пример исследования ЕЯ ресурса.
2 Лекция 6. СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА Формальное описание основных синтагм Формальное описание производных синтагм и синтагматических конструктивов Статистический анализ синтагматических конструктивов
3 Литература Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, книга в комплекте с CD ROM С. 54–64.
4 ФОРМАЛЬНОЕ ОПИСАНИЕ ОСНОВНЫХ СИНТАГМ Конструктивные ЕЯ единицы: корпус текстов, текст, контекст, сверхфразовое единство, предложение, словосочетание, слово, морфема, квази-морфема, слог, символ алфавита (буква). Синтагма непроизвольная цепочка языковых единиц нижнего уровня (символов). Синтагмы каждого верхнего уровня состоят из синтагм нижних уровней. основные : символ, слово, предложение, текст производные : морфема, квази-морфема, слог, словосочетание, сверхфразовое единство, контекст и корпус текстов. Цели выделения основных синтагм 1.Описание текста на основе теории формальных языков. 2.Выделение комплекса задач предварительного анализа текста.
5 Литература Филиппович Ю.Н., Родионов Е.В., Черкасова Г.А. Языковые средства диалога человека с ЭВМ. Практическое пособие / Серия «Организация взаимодействия человека с техническими средствами АСУ». В 7 кн. Кн.2. Под ред. Четверикова В.Н. М.: Высш. шк., – 159 с.
6 СИНТАГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА комплекс синтагматических конструктивов, построенных на основе основных и производных синтагм. Основные синтагматические конструктивы: тексты, словники (частичные и полные, прямые и обратные, частотные) упорядоченные списки синтагм словоуказатели. индексы упорядоченных списков синтагм нижнего уровня по синтагмам верхнего уровня, а также по организационным единицам (том, часть, глава, страница, строка, и т.д.).
7 ОСНОВНЫЕ СИНТАГМЫ (1).,. Алфавитом естественно-языкового описания предметной области будем называть множество AB, такое что: AB х алфавиты современных естественных языков (различаются множества прописных и строчных букв),, где: AB D множество цифр AB S множество специальных символов, которые могут выступать в качестве букв слов
8 ОСНОВНЫЕ СИНТАГМЫ (2).,. Стоп-знак слова элемент множества знаков, которые позволяют отделять в тексте слова друг от друга. Стоп-знак stW слова W является элементом транзитивного замыкания множества стоп-знаков:, где
9 ОСНОВНЫЕ СИНТАГМЫ (3) Словом в ЕЯ описании ПО будем называть конкатенацию элемента транзитивного замыкания множества AB и стоп- знака:
10 ОСНОВНЫЕ СИНТАГМЫ (4). Предложение будем рассматривать как конкатенация стоп-знака предложения ST S и элемента транзитивного замыкание слов и их разделителей:
11 ОСНОВНЫЕ СИНТАГМЫ (5) Текст определяется аналогично предложению как конкатенация стоп-знака и элемента транзитивного замыкания слов и их разделителей:
12 ПОРОЖДАЮЩИЕ ГРАММАТИКИ ЕЯ ОПИСАНИЯ ПОРМ (1) GT – грамматика, порождающая текст. GS – грамматика, порождающая предложение. GW – грамматика, порождающая слово. N – множество нетерминальных символов T = AB STW – множество терминальных символов. S – начальный нетерминальный символ. EOF = EOL = ( )
13 ПОРОЖДАЮЩИЕ ГРАММАТИКИ ЕЯ ОПИСАНИЯ ПОРМ (2) ОПИСАНИЕ ГРАММАТИКИ, ПОРОЖДАЮЩЕЙ ТЕКСТ GT = (N, T, P, S0) N = { S0,S1,S2,S3,S4} T = AB STW P = {S0 S1 EOF | EOF, S1 S2 S1 | S2, S2 S3 S4 | S3 | S4, S3 w S3 | ww AB T S4 s S4 | ss (STW \ EOF) T
14 ПОРОЖДАЮЩИЕ ГРАММАТИКИ ЕЯ ОПИСАНИЯ ПОРМ (3) ОПИСАНИЕ ГРАММАТИКИ, ПОРОЖДАЮЩЕЙ ПРЕДЛОЖЕНИЯ GS = (N, T, P, S0) N = { S0,S1,S2,S3,S4} T = AB STW P = {S0 S1 е | е,е STS T S1 S2 S1 | S2, S2 S3 S4 | S3 | S4, S3 w S3 | ww AB T S4 s S4 | ss (STW \ STS) T }
15 ПОРОЖДАЮЩИЕ ГРАММАТИКИ ЕЯ ОПИСАНИЯ ПОРМ (4) ОПИСАНИЕ ГРАММАТИКИ, ПОРОЖДАЮЩЕЙ СЛОВА. GW = (N, T, P, S0) N = { S0,S1,S2,S3 } T = AB STW P = {S0 S1 е | е,е STW T S1 S2 S1 | S2 S2 w S3 | ww AB T S3 s S3 | ss (STW \ EOF) T }
16 ФОРМАЛЬНОЕ ОПИСАНИЕ ПРОИЗВОДНЫХ СИНТАГМ И СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ Генеральная совокупность = корпус текстов ЕЯ описания ПОРМ Объект исследования отдельные синтагмы, являющиеся элементами этого корпуса текстов Основные характеристики абсолютные частоты встречаемости синтагм в корпусе текстов и составляющих его частях
17 ПРОИЗВОДНЫЕ СИНТАГМЫ (1) Корпус текстов G это множество текстов ЕЯ описания ПОРМ: G = { T 1, T 2,..., T N }, где N – число текстов в корпусе, T i – i-ый текст. Словосочетание w k выводится из G T., состоит ровно из k-слов, между которыми отсутствуют стоп-знаки предложения или текста: w k = w 1 w 2 w 3..w k. Любое отдельное слово w = w 1. Поставим в соответствие каждому выражению w k число, характери- зующее частоту его встречаемости в конкретном выводе G T и получим отображение F: w k E, где E – множество целых чисел. Частотная функция F = N(w k, T), где: T – конкретный текст, w k – словосочетание. Свойства частотной функции: N(w k,T)>0, если w k T, и N(w k,T)=0, если w k T. Из w = w 1 следует, что N(w,T) = N(w 1,T).
18 ПРОИЗВОДНЫЕ СИНТАГМЫ (2) Суммой текстов T 1 и Т 2 называется текст Т 3, получаемый удалением из текста T 1 стоп-знаков текста и присоединением к нему текста T 2 T 3 – является текстом, выводимым из G T. Доказательство 1.Если существуют T 1 и T 2, выводимые из G T, то существует конкретный вывод T 1 и T 2 из аксиомы S0. 2.T 1 и Т 2 – конечные последовательности символов терминального алфавита G T, а сама грамматика может порождать последовательности любой длины. 3.Следовательно, после вывода всех символов T 1 можно осуществить вывод дополнительно всех символов T 2. 4.Таким образом, T 3 есть текст, порождаемый G T. Будем записывать: T 3 = T 1 + T 2, T 1 +T 2 T 2 +T 1.
19 ПРОИЗВОДНЫЕ СИНТАГМЫ (3) Контекст С(T) непрерывный фрагмент текста T, т.е. фрагмент вывода в GT. Свойства контекста: N(w k, T 1 ) + N (w k, T 2 ) = N(w k, T 1 +T 2 ) N(w k, C(T)) N(w k, T) T = C 1 (T)+...+C q (T), где С i (T) C j (T)=, i,j (i j) [0,q] N(w k,С i (T)) N(w k, T), где С i (T) C j (T)= Замечание. N(w k, T 1 ) + N (w k, T 2 ) N(w k, T 1 +T 2 ), Тексты завершаются стоп-знаками предложения, Возможность словосочетания w k на границе T 1 и T 2 практически отсутствует. Будем считать, что N(wk, T1) + N (wk, T2) = N(wk, T1+T2).
20 ПРОИЗВОДНЫЕ СИНТАГМЫ (4), Частотный словник упорядоченная совокупность слов (или словосочетаний) текста и значений их частотной функции S(T) = ( ). Операции над словниками Объединение словников. Объединением словников S(T1) и S(T2) будем называть словник S(T1+T2). В объединенный словник войдут все слова и словосочетания из обоих текстов со своими частотными функциями, а для одинаковых слов (или словосочетаний) строится суммарная частотная функция. Вычитание словников. Вычитанием словников S(T1)-S(T2) будем называть словник S(T*), в который войдут только те слова (или словосочетания) из T1, для которых N(wk,T1) > N(wk,T2). Под T* понимается гипотетический текст, по которому мог бы быть построен словник S(T*).
21 ПРОИЗВОДНЫЕ СИНТАГМЫ (5) Ограничения синтагматической структуры: невозможность различения в словах дефиса, распознавание только слова и предложения, невозможность распознавания вложенных структур (скобочных записей, прямой речи, других формально- синтаксических конструкций). порождающая синтагматическая структура распознающая модель = «программа-транслятор» генератор синтагматического кода ЕЯ описания ПОРМ комплекс синтагматических конструктивов: словники, словоуказатели, списки словосочетаний, контексты, индексы и т.п.
22 ПРОИЗВОДНЫЕ СИНТАГМЫ (6) СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА это представление его в виде множества основных синтагматических конструктивов, полученных путем преобразования текста на основе его формально- языкового теоретико-множественного описания:.
23 СТАТИСТИЧЕСКИЙ АНАЛИЗ СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ Частотный анализ текста формирование параметрического профиля текста. Задачи частотного анализа Вычисление параметров распределения слов в модели «ранг-частота» для текстов. Построение для текстов частотных функций для слов и парных словосочетаний: N(w ij, T j ), N(w ij 2, T j )}, где w ij,w ij 2 T j, j =1,N. Построение частотных словников { S(T j ) }, где j=1,N. Вычисление общего числа элементов словника:, где R j – число элементов в словнике S(Tj). Вычисление параметров распределения слов в модели «ранг-частота» для генеральной совокупности. Нахождение параметров закона Мандельброта для генеральной совокупности.
24 ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (1) Динамический анализ текста выявление закономерностей изменения количественных характеристик структуры ЕЯ описания ПОРМ в течение времени t. Задачи динамического анализа Определение структуры текста; Определение структуры словников, Определение содержания словников Определение наполнения словников. Основная идея динамического анализа заключается в наблюдении за характером изменения частотных интервалов.
25 ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (2) ЧастотаF 1 F2F2 F 3 F 4....F N р 1 р 2 - р 3... р k - р k+1 > р k+1 Итого: В общем случае имеет место следующая таблица: Здесь: [P k,P k+1 ] – границы частотных интервалов. – тексты или словники, по которым проводится наблюдение.
26 ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (3) Динамика структуры текста показывает относительное изменение объемов частотных групп в текстах в течение некоторого интервала времени. где Здесь: M j – число слов в тексте T j, R t – число слов в тексте F t
27 ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (4) Результаты могут быть сведены в таблицу: ЧастотаF 1 F2F2 F 3 F 4....F N 1 (1,0,1) (N,0,1) 1 - р 1 (1,1,р 1 ) (N,1,р 1 ) р 2 - р 3 (2,р 2,р 3 )... р k - р k+1 > р k+1 Итого: (1,0, ) 1 В строке «итого», записывается сумма вышестоящего столбца, т.е. (1,0, ). Очевидно, что (N,0, ) = 1
28 ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (5) Динамика структуры словников показывает относительное изменение объемов частотных групп в словниках в течение некоторого интервала времени. где
29 ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (6) Динамика содержания словников показывает соотношение объемов частотных групп в течение некоторого интервала времени. где Здесь: R t – число слов в словнике F t.
30 ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (7) Результаты могут быть сведены в таблицу: ЧастотаF 1 F2F2 F 3 F 4....F N 1 (1,0,1) (N,0,1) 1 - р 1 (1,1,р 1 ) (N,1,р 1 ) р 2 - р 3 (2,р 2,р 3 )... р k - р k+1 > р k+1 Итого:111111
31 ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (8) Динамика наполнения словников характеризует «прирост» новых слов в частотные группы в течение некоторого временного интервала. где Здесь: R N – число слов в словнике F N. R t – число слов в словнике F t.
32 ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (9) Результаты могут быть сведены в таблицу: ЧастотаF 1 F2F2 F 3 F 4....F N 1 (1, 0, 1) р 1 (1, 1, р 1 ) 1 р 2 - р 3 (2, р 2, р 3 ) р k - р k+1 1 > р k+1 1 Итого: (1, 0, ) 1
33 ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ Что такое синтагматическая модель текста? Приведите формальное описание основных синтагм. Приведите формальное описание производных синтагм. Приведите примеры синтагматических конструктивов. Перечислите основные этапы статистического анализа синтагм и синтагматических конструктивов.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.