Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний лекции 1-2. 1.2. Количественная.

Презентация:



Advertisements
Похожие презентации
Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний лекции Количественная.
Advertisements

Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний лекции Количественная.
Семиотика информационных технологий. Ю.Н.Филиппович, А.Ю.Филиппович, А.Ю.Филиппович, Г.А.Черкасова СЕМИОТИКА ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ Слайд-лекции для.
Формальное представление лексических отношений русских глаголов Магистерская диссертация Галушко Надежды Леонидовны (филологический факультет, кафедра.
СЕТЕВАЯ МОДЕЛЬ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ ЛЕКЦИЯ (С): Доц., к.т.н. Шкаберин В.А. Брянский государственный технический университет Кафедра «Компьютерные технологии.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Даталогическое проектирование. 1. Представление концептуальной модели средствами модели данных СУБД Общие представления о моделях данных СУБД С одной.
Теория экономических информационных систем Семантические модели данных.
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
Семантическая сеть. Данная модель представления знаний была предложена американским психологом Куиллианом.
Обучение младших школьников работе со словарями синонимов и антонимов на уроках написания изложения и сочинения.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Моделирование. Работу выполнила Ирина Бахтина Ученица 9 и класса.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Служебные части речи. Проект выполнил ученик Проект выполнил ученик 7 «а» класса Бережной С. 7 «а» класса Бережной С.
Моделирование и формализация : Моделирование. Моделирование – это метод познания, состоящий в создании и исследовании моделей. Модель.
Авторы проекта учени. 11 класса « А »
И Моделирование – это построение моделей реально существующих объектов; построение моделей реально существующих объектов; замена реального объекта его.
Модели представления знаний. 1. Логические; 2. Продукционные; 3. Представление знаний на основе фреймов; 4. Представление знаний на основе семанти- ческих.
Моделирование как метод познания Моделирование это метод познания, состоящий в создании и исследовании моделей.
Транксрипт:

Тема 1. ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ ЗНАКОВЫЕ СИСТЕМЫ ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ 1.1. Модели и методы представления и организации знаний лекции Количественная спецификация ЕЯ систем лекции 3-4, Логико-статистические методы извлечения знаний лекция 5-7. ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ 1.4. Технология автоматизированного построения словаря- тезауруса Пример исследования ЕЯ ресурса.

Лекция 7. ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА Парадигматическая модель ЕЯ описания ПОРМ Производные парадигматические конструктивы

Литература Материал лекции представлен в книге: Ю.Н.Филиппович, А.В.Прохоров. Семантика информационных технологий: опыты словарно-тезаурусного описания. / Серия «Компьютерная лингвистика». Вступ. Статья А.И.Новикова. М.: МГУП, книга в комплекте с CD ROM С. 64–73.

ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ЕЯ ОПИСАНИЯ ПОРМ ПАРАДИГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА представление его в виде множества основных парадигматических конструктивов, или интерпретированных синтагматических конструктивов, полученных путем преобразования текста на основе его формально-языкового теоретико-множественного описания: ЕЯО ПОРМ СТО ПОРМ СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ СТО ПОРМ

СТРУКТУРА ПАРАДИГМАТИЧЕСКОГО КОНСТРУКТИВА ЧАСТИ ПАРАДИГМАТИЧЕСКОГО КОНСТРУКТИВА Синтагматическая формально-языковое описание. Парадигматическая естественно-языковое описание, формально-языковое описание, словарно-тезаурусное описание. парадигматическая модель множество синтагматических моделей текста и его интерпретаций

Литература Ю.Н.Филиппович Интеграция предмета, образа и субъекта в концептуальном проектировании информационных технологий и систем // Интеллектуальные технологии и системы. Сборник статей аспирантов, стажеров и студентов. Вып. 1. – М.: Изд-во МГТУ им Н.Э.Баумана,1998. С. 9–33. Ю.Н. Филиппович Семиотическая концепция интеграции информационных технологий // Sсriрtа linguistiсае аррliсаtае. Проблемы прикладной линг­вистики – Сб.ст. / Отв. ред. А.И. Новиков. – М.: «Азбуковник», С. 319–342.

ПАРАДИГМАТИЧЕСКИЕ КОНСТРУКТИВЫ ПАРАДИГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА комплекс основных и производных парадигматических конструктивов. Основные парадигматические конструктивы: словарные статьи, парадигматические отношения. Производные парадигматические конструктивы: частичные словники (ограниченные неформальным признаком), словоуказатели (предметные, именные, и т.п.), конкордансы, словари, ареалы, тезаурусы и др.

ПРЕДМЕТНЫЙ (ТЕРМИНОЛОГИЧЕСКИЙ) УКАЗАТЕЛЬ.,.,, указатель слов, выбор слов, обозначающих предметы реального мира. где: Предметный указатель получается путем интерпретации указателя слов, образованного на основе формально-языкового преобразования текста. Интерпретация состоит в выделении в нем «слов-предметов». В предметный (терминологический) указатель могут быть включены основные термины и понятия ПОРМ, выраженные словами, словосочетаниями (2-х и 3-х словными). Отдельно могут быть представлены аббревиатуры.

ИМЕННОЙ УКАЗАТЕЛЬ.,. указатель слов, выбор слов, являющихся именами. где: Именной указатель получается путем интерпретации указателя слов, образованного на основе формально-языкового преобразования текста. Интерпретация состоит в выделении в нем «слов-имен». В именной указатель могут быть включены все имена собственные, в т.ч. и представленные словосочетаниями. Отдельно могут быть представлены различные их типы: аббревиатуры, персоналии, организации,топонимы и др.

ГРАММАТИЧЕСКИЙ СЛОВАРЬ Грамматический словарь ЕЯ описания ПОРМ может включать: существительные, прилагательные, глаголы, наречия, числительные, предлоги, междометия, союзы, частицы и местоимения. Структура словарной статьи грамматического словаря {S} [S] [i 1 ] [i 2 ]... [i k ] ЛЕММА слово в основной форме; МИ морфологическая информация о слове; МИ j подробная грамматическая информация; s количество словоформ в тексте; S общее количество словоформ в тексте; i j частота j-ой словоформы. Интерпретация состоит в лемматизации путем формального морфологического анализа с последующим разрешением проблем омонимии субъектом.

Литература Г.О.Сидоров. Лемматизация в автоматизированной системе построения словарей языка писателей // Слово Достоевского. Сб. ст. / Под ред. Ю.Н.Караулова. – М.: Инт.Русск. яз. РАН, С.266–300.

СЛОВАРЬ СЛОВОСОЧЕТАНИЙ. Структура словарной статьи словаря словосочетаний (СЛОВОСОЧЕТАНИЕ1), (СЛОВОСОЧЕТАНИЕ2),... (СЛОВОСОЧЕТАНИЕk). Здесь: ЛЕММА слово в основной форме из грамматического словаря; СЛОВОСОЧЕТАНИЕ двух-, трехсловное словосочетание из предметного указателя, являющееся термином или основным понятием ЕЯ описания ПО. Интерпретация состоит в выборе устойчивых словосочетаний.

КОНКОРДАНС (СЛОВАРЬ КОНТЕКСТОВ) Структура словарной статьи конкорданса (словаря контекстов). Здесь: КОНТЕКСТ ближайшее окружение словоформы или словосочетания, размер которого может быть выбран произвольно, однако в большинстве случаев его следует ограничить предложением (количество контекстов для одной леммы должно быть от трех до пяти, а для словосочетания достаточно одного – двух); АДРЕС указание на источник контекста. Интерпретация состоит в выборе контекстов, их величины и количества.

СЛОВАРЬ ОПРЕДЕЛЕНИЙ (1) Словарь определений может включать описание основных понятий ПОРМ, взятых из предметного указателя. Словарная статья может включать следующие сведения: заголовочное слово (понятие из предметного указателя), варианты определений (толкований) из других словарей определений, устойчивые словосочетания (из словаря словосочетаний) эксцерпции (примеры контекстов из текстов ЕЯ описания ПО) указания источников контекстов из конкорданса и др. Интерпретация состоит в определении состава и структуры словарной статьи

СЛОВАРЬ ОПРЕДЕЛЕНИЙ (2) СЛОВАРЬ РУССКОГО ЯЗЫКА XI–XVII ВВ. ИСКУССТВО, с. 1. Умение, знание, искусство. Како не зримъ прилежно мысленнымъ своимъ окомъ древняго дракона, врага нашего бодрого, и никогда же спящаго, и множаишими л#ты искуство злобы имущаго. Курб. Пис., 387. XVII в. XVI в. 4 ч бомбардировъ, немец­кой породы, которые бы им#ли въ своей наук# и въ воинскихъ д#л#хъ доброе и свид#телствованное искуство. ДАИ XII, г. 2. Опыт; способ к узнаванию чего-л., эксперимент. Искусством бо сие разум#хомъ. М. Гр. I, 300. XVIXVII вв. XVI в. Т#мъ искусствомъ опознаваемъ. Травник Любч., 407. XVII в г.

СЛОВАРЬ ОПРЕДЕЛЕНИЙ (3) Структура словарной статьи Словаря русского языка XI-XVII вв.

ТЕЗАУРУС (1) Парадигматический конструктив тезаурус может быть представлен как тройка формальных объектов: или { }. Такое представление парадигматического конструктива позволяет рассматривать его как элемент формального языка RX-кодов: X-термины; R-релатемы

ТЕЗАУРУС (2) Примерами парадигматических отношений являются формальные модели оценки «силы связи» между языковыми элементами коэффициенты. В частности можно представить конструктив парадигматического отношения в следующем виде:, где является соответствующей интерпретацией R коэффициента. Парадигматическое отношение является элементом графа одной из формальных моделей представления знаний, (сетевых, фреймовых и т.п.).

ТЕЗАУРУС (3) L = (U, V), где: U – множество вершин сети (лемм), V – множество связей. U = { u 1, u 2,..., u K }, где: k – число выделенных лемм. V U 2, V = { } R(u i,u j ) – функция, определенная на множестве U 2 – количественная мера связи между вершинами u i и u j. Свойства: R(u i,u j ): R(ui,uj) = 0 V; если, то R(u i,u j ) R(u j,u i ). Описание тезауруса в виде простой семантической сети – ориентированная связь от вершины u i к вершине u j

ТЕЗАУРУС (4) Задача построения функции R(ui,uj) на основе корпуса текстов T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (i j) [1,q] Введем характеристики: |T| – число слов в тексте T, |Сi(T)| – число слов в i-ом контексте текста T. При условии, что Сi(T) Cj(T)=, i,j (i j) [1,q], имеем, где q – гранулярность разбиения, т.е. число непересекающихся контекстов, на которые разбивается текст T. Будем считать, что |Ci(T)|=|Cj(T)|, для i,j [1,q], тогда |T| = q|C(T)|, где С(T) некоторый контекст из выбранных.

ТЕЗАУРУС (5) Поскольку С(T) тоже является текстом, то для него можно определить частотную функцию N(w,C(T)), значение которой равно числу слов w в контексте С(T). Такая частотная функция вводится на всех контекстах N(w,C 1 (T)), N(w,C 2 (T)),..., N(w,C q (T)). Будем рассматривать два слова w 1 и w 2, принадлежащие тексту T. Для них можно записать два ряда: N(w 1,C 1 (T)), N(w 1,C 2 (T)),..., N(w 1,C q (T)) N(w 2,C 1 (T)), N(w 2,C 2 (T)),..., N(w 2,C q (T)) Обозначим: N(w 1,C(T)) – число слов w 1 в некотором контексте из числа выбранных; N(w 2,C(T)) – число слов w 2 в некотором контексте из числа выбранных;

ТЕЗАУРУС (6) N(w 1, C(T))=1N(w 1, C(T))=2...N(w 1, C(T))=Rnуnу N(w 2, C(T))=1n(1,1)n(1,2)n(1,R) N(w 2, C(T))=2n(2,1)n(2,2)n(2,R) N(w 2, C(T))=3n(3,1)n(3,2)n(3,R)... N(w 2, C(T))=Rn(R,1)n(R,2)n(R,R) nхnх ухух Определим функцию n(х, у) числа контекстов, в которых слово w 1 имело частоту х, а слово w 2 – частоту у. n(х,у) = n(N(w 1,C(T)), N(w 2,C(T))) R = |С(T)| – размер контекста, n х – суммы по столбцам, n у – суммы по строкам, – средние значения по столбцам =

ТЕЗАУРУС (7) Для построения семантической сети требуется построение корреляционной матрицы для имеющихся в T пар слов. В качестве меры связи между словами w 1 и w 2 могут использоваться значения коэффициентов корреляции или корреляционного отношения. Факторы построении семантической сети : а) процедуру лемматизации исходного множества слов; б) размерность корреляционной матрицы RхR, ее избыточность; в) гранулярность разбиения q; г) «направленность» связи.

Литература А.В.Прохоров. Методы исследования естественно- языкового описания предметной области «Информатика и вычислительная техника» // Интеллектуальные технологии и системы. Сб. ст. аспирантов, стажеров и студентов. Вып. 1. – М.: Изд-во МГТУ им. Н.Э.Баумана, 1998.

АРЕАЛ (1) Парадигматический конструктив ареал часть тезауруса, выделенная по значению селективного критерия, например коэффициента «силы связи». Построения парадигматических ареалов задача кластерного анализа. В случае представления тезауруса в виде простой семантической сети задача сводится к нахождению подграфа с заданными свойствами вершин (лемм) или дуг (коэффициентов «силы связи»).

АРЕАЛ (2), Тезаурус неполносвязанный ориентированный граф L = (U,V) : U = { u1, u2,..., uN }, V U2, V = { }, R(ui,uj) = k(ui,uj)

АРЕАЛ (3) Тезаурус в виде простой семантической сети L = (U,V) Удаление ребер, для которых R(ui,uj) V0; Для u i, u j A верно, что R(u i,u j ) > R0 Для u i A и u j A верно, что R(u i,u j ) R0

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ 1. 1.Что такое парадигматическая модель текста? 2. 2.Какую структуру имеет парадигматический конструктив? 3. 3.Какую структуру имеют парадигматические конструктивы: предметный и именной указатели, словарь? 4. 4.Какую структуру имеют парадигматические конструктивы словарей: грамматического, словосочетаний, текстов, определений? 5. 5.Какую структуру имеет парадигматический конструктив тезаурус? 6. 6.Какую структуру имеет парадигматический конструктив ареал?