Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.

Презентация:



Advertisements
Похожие презентации
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Advertisements

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Алгоритмический язык и язык Бейсик Ученицы 11-А класса ОШ 15 Бондаренко Натальи.
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Скачать конспект к данной презентации Qo.do.aM - >>>мир предметника
Глава II. ТЕОРИЯ МНОЖЕСТВ 1. Основные понятия теории множеств Множество – некоторая совокупность объектов, называемых элементами этого множества. Понятие.
Теория формальных языков и грамматик. Определения 1. Цепочка символов в алфавите V - любая конечная последовательность символов этого алфавита. Пустая.
Введение в формальные (аксиоматические) системы. Формальные системы - это системы операций над объектами, понимаемыми как последовательность символов.
ПРАВОЛИНЕЙНЫЕ ГРАММАТИКИ Обобщение автоматных грамматик. Порождающие правила в виде: A ωB или A ω где A, В – нетерминалы, ω – терминальная цепочка, допустимо:
1.Что называется переменной? 2. Приведите примеры имен переменных. 3. Как объявить переменную? 4. Чем отличаются глобальные переменные от локальных?
СЕТЕВАЯ МОДЕЛЬ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ ЛЕКЦИЯ (С): Доц., к.т.н. Шкаберин В.А. Брянский государственный технический университет Кафедра «Компьютерные технологии.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Кодирование информации с помощью знаковых систем Цель Познакомить со знаковыми системами.
МОУ СОШ 7 п.Коммаяк Кировского района Ставропольского края Учитель высшей квалификационной категории Куликова Татьяна Ивановна.
Тип, имя и значение переменной. В объектно-ориентированных языках программирования переменные играют такую же важную роль, как и в процедурных языках.
Электронные таблицы Excel Что такое таблица? Таблица - это строки и столбцы. Примеры таблиц: –таблица умножения; –таблица Менделеева; –расписание.
Транксрипт:

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 2. Автоматический анализ текста на морфологическом уровне 1.Морфологически й уровень в ЛИТ 2.Основные понятия морфологии в компьютерной морфологии 3.Основные процедуры компьютерной морфологии 4.Компьютерная морфология русского языка 5.Технологии морфологического анализа 6.«Предсказание» (типизация) 7.Вопросы, смежные с синтаксисом

ФОРМАЛЬНО-ЛИНГВИСТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ Конечный автомат – язык Конечный преобразователь – отношение Язык:L V* Отношение:R V в * x V н *

ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ sing+Inf:sing; sing+3pSg:sings; sing+Past:sang; sing+PP:sung; spring+Inf:spring; spring+3pSg:springs; spring+Past:sprang; spring+PP:sprung;

ФРАГМЕНТ АНГЛИЙСКОЙ ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ s Ø pr i ng Inf: Ø 3PSg: s i:a i:u n ngPast:Ø gPP: Ø

ЛЕКСИКОН В ФОРМАТЕ Xerox Tools Multichar_Symbols +Inf+3pSg +Past+PP LEXICON Root sing+Inf:sing# ; sing+3pSg:sings# ; sing+Past:sang# ; sing+PP:sung# ; spring+Inf:spring# ; spring+3pSg:springs# ; spring+Past:sprang# ; spring+PP:sprung# ;

ЛИСТИНГ РАБОТЫ С XFST (1) >xfst

ЛИСТИНГ РАБОТЫ С XFST (2) >xfst Copyright й Palo Alto Research Center Xerox Finite-State Tool, version Type "help" to list all commands available or "help help" for further help. xfst[0]:

ЛИСТИНГ РАБОТЫ С XFST (3) >xfst Copyright й Palo Alto Research Center Xerox Finite-State Tool, version Type "help" to list all commands available or "help help" for further help. xfst[0]: read lexc ex3c.txt

ЛИСТИНГ РАБОТЫ С XFST (4) Copyright й Palo Alto Research Center Xerox Finite-State Tool, version Type "help" to list all commands available or "help help" for further help. xfst[0]: read lexc ex3c.txt Reading ISO text from 's-lex.txt' Root...2 Building lexicon...Minimizing...Done! 1.5 Kb. 14 states, 19 arcs, 8 paths. Label Map: Default Closing 's-lex.txt' xfst[1]:

ЛИСТИНГ РАБОТЫ С XFST (5) Copyright й Palo Alto Research Center Xerox Finite-State Tool, version Type "help" to list all commands available or "help help" for further help. xfst[0]: read lexc ex3c.txt Reading ISO text from 's-lex.txt' Root...2 Building lexicon...Minimizing...Done! 1.5 Kb. 14 states, 19 arcs, 8 paths. Label Map: Default Closing 's-lex.txt' xfst[1]: print words

ЛИСТИНГ РАБОТЫ С XFST (6) Closing 's-lex.txt' xfst[1]: print words sing+3pSg:s sing+Inf:0 si:ang+Past:0 si:ung+PP:0 spring+3pSg:s spring+Inf:0 spri:ang+Past:0 spri:ung+PP:0 xfst[1]:

ЛИСТИНГ РАБОТЫ С XFST (7) Closing 's-lex.txt' xfst[1]: print words sing+3pSg:s sing+Inf:0 si:ang+Past:0 si:ung+PP:0 spring+3pSg:s spring+Inf:0 spri:ang+Past:0 spri:ung+PP:0 xfst[1]: print net

ЛИСТИНГ РАБОТЫ С XFST (8) xfst[1]: print net Sigma: a g i n p r s u +Inf +PP +Past +3pSg Size: 12, Label Map: Default Net: Flags: deterministic, pruned, minimized, epsilon_free, loop_free Arity: 2 s0: s -> s1. s1: i -> s2, p -> s3, i:a -> s4, i:u -> s5. s2: n -> s6. s3: r -> s7. s4: n -> s8.

ЛИСТИНГ РАБОТЫ С XFST (9) s0: s -> s1. s1: i -> s2, p -> s3, i:a -> s4, i:u -> s5. s2: n -> s6. s3: r -> s7. s4: n -> s8. s5: n -> s9. s6: g -> s10. s7: i -> s2, i:a -> s4, i:u -> s5. s8: g -> s11. s9: g -> s12. s10: +Inf:0 -> fs13, +3pSg:s -> fs13.

ЛИСТИНГ РАБОТЫ С XFST (10) s4: n -> s8. s5: n -> s9. s6: g -> s10. s7: i -> s2, i:a -> s4, i:u -> s5. s8: g -> s11. s9: g -> s12. s10: +Inf:0 -> fs13, +3pSg:s -> fs13. s11: +Past:0 -> fs13. s12: +PP:0 -> fs13. fs13: (no arcs) xfst[1]:

ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox) s0: s -> s1. s1: i -> s2, p -> s3, i:a -> s4, i:u -> s5. s2: n -> s6. s3: r -> s7. s4: n -> s8. s5: n -> s9. s6: g -> s10. s7: i -> s2, i:a -> s4, i:u -> s5. s8: g -> s11. s9: g -> s12. s10: +Inf:0 -> fs13, +3pSg:s -> fs13. s11: +Past:0 -> fs13. s12: +PP:0 -> fs13. fs13: (no arcs)

ФРАГМЕНТ АНГЛ. ГЛАГОЛЬНОЙ СИСТЕМЫ: КОНЕЧ. ПРЕОБРАЗОВАТЕЛЬ (версия Xerox) s p r i ng Inf: Ø 3PSg: s i:a i:u n ngPast:Ø gPP: Ø i i:a i:u

КОНЕЧНЫЙ ПРЕОБРАЗОВАТЕЛЬ КАК СРЕДСТВО МОРФ. АНАЛИЗА И СИНТЕЗА xfst[1]: up spring spring+Inf xfst[1]: up sprang spring+Past xfst[1]: up sung sing+PP xfst[1]: down sing+3pSg sings xfst[1]:

ЛЕКСИКОН В ФОРМАТЕ Xerox Tools Multichar_Symbols +Inf+3pSg +Past+PP LEXICON Root sing+Inf:sing# ; sing+3pSg:sings# ; sing+Past:sang# ; sing+PP:sung# ; spring+Inf:spring# ; spring+3pSg:springs# ; spring+Past:sprang# ; spring+PP:sprung# ;

РАСШИРЕНИЕ ЛЕКСИКОНА LEXICON Root sing+Inf:sing# ; sing+3pSg:sings# ; spring+Inf:spring# ; spring+3pSg:springs# ; sprint+Inf:sprint#; sprint+3pSg:sprints#; sprout+Inf:sprout#; sprout+3pSg:sprouts# spruce+Inf:spruce#; spruce+3pSg:spruces# spud+Inf:spud#;

РАСШИРЕНИЕ ЛЕКСИКОНА на ЯЗЫКЕ LEXC LEXICON Root sing Ending; spring Ending; sprint Ending; sprout Ending; spruce Ending; spud Ending; LEXICON Ending +Inf:0#; +3pSg:s#;

РЕЗУЛЬТАТ РАСШИРЕНИЯ ЛЕКСИКОНА xfst[1]: print words sing+Inf:0 sing+3pSg:s sprint+Inf:0 sprint+3pSg:s spring+Inf:0 spring+3pSg:s sprout+Inf:0 sprout+3pSg:s spruce+Inf:0 spruce+3pSg:s spud+Inf:0 spud+3pSg:s

ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (1) Объявление комплексных символов (Multichar_Symbols) – факультативно Определение классов (Definitions) – факультативно LEXICON Root LEXICON A LEXICON B END - факультативно

ОБЩИЕ СВЕДЕНИЯ О ЗАПИСИ ЛЕКСИКОНОВ НА ЯЗЫКЕ LEXC (2) Все записи во всех лексиконах обязательно представляют собой форму (терминальную цепочку, возможно, нулевую) и класс продолжений (имя одного из последующих лексиконов) Каждая запись в лексиконе оканчивается на "; Комментарии вводятся знаком "!" Для буквальной интерпретации следующего символа используется знак "%" (перед ;#:!0)

ТИПЫ СЛОВАРНЫХ СТАТЕЙ В ЛЕКСИКОНАХ LEXC LEXICON Root go# ; go:went#; # ;

РЕГУЛЯРНЫЕ ВЫРАЖЕНИЯ Обобщающий термин для средств записи регулярных языков и регулярных отношений Конечный автомат соответствует регулярному языку Конечный преобразователь соответствует регулярному отношению

ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ РЕГУЛЯРНОГО ЯЗЫКА Регулярный язык - формальный язык, специфика которого заключается в способе определения: определяется по образцу алгебраического исчисления, т.е. через исходный алфавит и набор операций, которые могут быть применены к символам этого алфавита, образуя цепочки определяемого языка. Множество всех возможных регулярных языков над заданным алфавитом - результат всех возможных применений операций определенного класса

РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (1) Символ a Цепочка a Язык {a} Регулярное выражение a Конечный автомат (задается диаграммой или таблицей) Автоматная грамматика (задается набором правил)

РАЗГРАНИЧЕНИЕ ПОНЯТИЙ (2) Регулярным выражением обозначается язык Регулярное выражение компилируется в виде конечного автомата Язык представляется в виде конечного автомата

ОСНОВНЫЕ ОПЕРАЦИИ РЕГУЛЯРНЫХ ЯЗЫКОВ конкатенация (a b или {ab}) итерация (* и +) факультативность (заключение в круглые скобки) объединение (|) отрицание/дополнение (~) и термовое отрицание/дополнение (\) пересечение (&)

ФОРМАЛЬНО-МАТЕМАТИЧЕСКИЙ СМЫСЛ КОНЕЧНОГО ПРЕОБРАЗОВАТЕЛЯ Конечный автомат – регулярный язык Конечный преобразователь – регулярное отношение Регулярное отношение:Результат объединения произведений регулярных языков

РАЗГРАНИЧЕНИЕ ПОНЯТИЙ Символ a Цепочка a Язык {a} Пара символов a:a Пара цепочек a:a Отношение {a:a}