Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.

Презентация:



Advertisements
Похожие презентации
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Advertisements

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
ЗАДАЧИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ. 1.Что такое компьютерная лингвистика? 2. История. 3. Направления компьютерной лингвистики. 4. Заключение.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
ИСПОЛЬЗОВАНИЕ ИНФОРМАЦИОННО- ПОИСКОВЫХ ЯЗЫКОВ В ПРОЦЕССЕ НАУЧНОЙ ОБРАБОТКИ ДОКУМЕНТОВ И СОЗДАНИЯ ЭЛЕКТРОННОГО КАТАЛОГА. Пяткова И.Н.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Лекция 3. Программное обеспечение информационных технологий По дисциплине: «Информационные технологии в коммерческой деятельности»
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
1 НИРС – научно-исследовательская работа студентов Требования для студентов, обучающихся на кафедре «Прикладная математика» Составил: И.Штурц.
Инструментальная среда экспертной обработки японских текстов Жалыбин П.П. Мальковский М.Г. Диалог
Программные средства разработки Web-страниц и презентаций Представление дисциплины.
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
КАФЕДРА ПРОБЛЕМ УПРАВЛЕНИЯ МФТИ Базовое предприятие: Институт проблем управления РАН ОБЩАЯ ИНФОРМАЦИЯ. Кафедра создана в 1956 г. академиком В.А. Трапезниковым.
Аппаратно-программный комплекс автоматизированной проверки устройств автоматики Выполнил: студент группы ЭТМО-61м Антонов Андрей Юрьевич Руководитель:
ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
Электронные словари. Company Logo Электронный словарь– словарь в компьютере или другом электронном устройстве. Электронные словари сочетают большой объем.
Транксрипт:

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 2. Автоматический анализ текста на морфологическом уровне 1.Морфологически й уровень в ЛИТ 2.Основные понятия морфологии в компьютерной морфологии 3.Основные процедуры компьютерной морфологии 4.Компьютерная морфология русского языка 5.Технологии морфологического анализа 6.«Предсказание» (типизация) 7.Вопросы, смежные с синтаксисом

ПЕРИОДИЗАЦИЯ РАЗРАБОТОК ПО КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА Первые разработки (для машинного перевода) – сер. 50-х – конец 60-х гг. Освоение новых функций – конец 60-х – конец 80-х гг. Освоение словаря Зализняка – конец 80-х - конец 90-х гг. Компьютерная морфология русского языка – «написанная книга»?.. – 2000-е гг.

ПЕРВЫЕ РАЗРАБОТКИ В ОБЛАСТИ КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА 1954 г. -Джорджтаунский эксперимент (январь) -Начало разработок систем МП в СССР: -с английского (Институте точной механики и вычислительной техники) -и французского (в Институте прикладной математики) языков Конец 50-х гг.: -Разработки систем МП с русского языка в США: -в Вашингтонском университете ( г.) – со словарем словоформ -в Гарвардском университете ( ) – с модулем морфологического анализа «справа налево» (inverse inflection) -Группа под руководством Ю.А.Моторина (1956/1958 г.) – англо-русский перевод Начало 60-х гг.: -Университет Уэйна (США) – перевод со словарем словоформ -Национальное бюро стандартов, Джорджтаунский университет (США) - с модулем морфологического анализа. -Перевод с русского в Гренобльском университете (Франция)

МОРФОЛОГИЧЕСКИЕ МОДУЛИ В НОВЫХ ФУНКЦИЯХ Систематизация опыта построения морфологических синтезаторов в работах З.М.Волоцкой (1958), Т.М.Николаевой (1961), далее - О.А.Штерновой (1977) Работа А.А.Раскиной и Т.С.Чепиго в ВИНИТИ (1967): построение словаря словоформ (нач. с 10 тыс.) с конечной целью – система перифразирования предложений на тему «Космос» Комплексная система обработки информации в ВИНИТИ (группа Г.Г.Белоногова): ИП вместе с набором автоматизированных вспомогательных функций (описан в публикациях гг.)

ИСПОЛЬЗОВАНИЕ МОРФОЛОГИЧЕСКОГО АНАЛИЗА В ТЕХНОЛОГИЧЕСКОЙ ЦЕПОЧКЕ ВИНИТИ

СЛОВАРЬ ЗАЛИЗНЯКА 1974 «Обратный словарь русского языка» 1977 «Грамматический словарь русского языка» е изд. ГСРЯ е изд. ГСРЯ е изд. ГСРЯ (добавлены имена собственные) Автор – Андрей Анатольевич Зализняк (с 1997 г. академик РАН)

ПЕРЕНОС СЛОВАРЯ ЗАЛИЗНЯКА НА МАШИННЫЕ НОСИТЕЛИ Автоматизированная лексикографическая система УНИЛЕКС (1987), УНИЛЕКС-2 (1989), УНИЛЕКС-Т (1993) Объявление в журнале Language о возможности приобрести электронную версию ГСРЯ у Университета Бригема Янга (Brigham Young University, штат Юта) (1992) Интеграция словаря Зализняка в STARLING - рабочую программную среду для лингвиста (ок.1989, в Интернете с starling.rinet.ru)

ФРАГМЕНТ СТРАНИЦЫ СЛОВАРЯ ЗАЛИЗНЯКА

ДОСТОИНСТВА СЛОВАРЯ ЗАЛИЗНЯКА полнота словника детальность словоизменительной характеристики

ФРАГМЕНТ СЛОВАРЯ ЗАЛИЗНЯКА, ЭКСПОРТИРУЕМОГО ИЗ STARLING WORDGRAMMARTRANS -де3 (_без удар._) част. -ка3 (_без удар._) част. -либо5 част. -нибудь5 (_без удар._) част. -с0 част. -таки5 част. -то3 (_без удар._) част. а1 (_без удар._) союзah and butI eh а1 част. а1 межд. а1 с 0 (_название буквы а_) а-конто4 с 0

СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ Идентификатор лексемыИдентификатор парадигмы порогов302 пород005 породнени002 порожда401

СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ Идентификатор лексемы ОсноваИдентификатор парадигмы пороговыйпорогов302 породапород005 породнениепороднени002 порождатьпорожда401

ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ КОДОВ ГСРЯ В МОРФОЛОГИЧЕСКИХ МОДУЛЯХ Могут быть слишком дробными (для обработки письменного текста) дол м 1е//1а порт м 1еимеют одинаковый набор окончаний клён м 1а Могут быть недостаточно точными (для некоторых процедур компьютерной морфологии) восстановление начальной формы: бугор м 1*bбугра: (- ра), (+ ор) котёл м 1*bкотла: (- ла), (+ ёл) псалом м 1*bпсалма: (- ма), (+ ом) сон м 1*bсна: (- на), (+ он) хребет м 1*bхребта: (- та), (+ ет)

НЕДОСТАТКИ СЛОВАРЯ ЗАЛИЗНЯКА сложная структура словоизменительной характеристики формальная «вседозволенность» (свобода образования форм множественного числа - вреды, зарезы, неонацизмы, кратких форм - бегл, кредитово, соляны, сравнительной степени - тяжелораненее, убитее, изюбревее) неполнота словника

РАЗРАБОТКИ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ ДЛЯ РУССКОГО ЯЗЫКА ПОСЛЕ СЛОВАРЯ ЗАЛИЗНЯКА Коммерческие модули проверки орфографии – «ОРФО», «ПРОПИСЬ»; в составе текстовых редакторов «ЛЕКСИКОН», «ДЕЛА В ПОРЯДКЕ» Вопрос как строить морфологические модули решается на уровне кандидатских диссертаций (О.В.Минтусова 1990, И.В.Жарков 1995, Г.О.Сидоров 1995)

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ Модули морфологической обработки предлагаются в качестве готового к употреблению товара (Руссикон, ABBYY, Медиа-Лингва, Гарант-Парк- Интернет,… ) Модули морфологической обработки распространяются свободно (АОТ, А.Поминов, С.Сикорский…) Что дальше?

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (1) анализатор он-лайнразвертывание парадигмы анализ Морфологический анализатор загруж.анализ Морфологические классы русского языка он-лайнпредставление морфологии анализатор - генератор парадигмы он-лайнтипизация словарных слов анализ развертывание парадигмы Словарь ГСРЯ в текстовом формате загруж.типизация словарных слов Словарь ГСРЯ в формате базы данных dbf загруж.типизация словарных слов Русская морфология (RMU/RMS) он-лайнанализ развертывание парадигмы типизация несловарных слов

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (2) анализатор - генератор парадигмы он-лайнанализ развертывание парадигмы Программа морфологического анализа загруж.анализ типизация несловарных слов Русский морфологический словарь загруж.представление морфологии типизация словарных слов m/competencies/content- analysis/demos/russian.en. html Russian Morphological Analysis он-лайнанализ версия русского морфологического анализатора он-лайн / загруж. анализ развертывание парадигмы SiliconValley/Bit/1116/ Russian Morphological Dictionary загруж.анализ

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ: повестка дня Потребность в свободно распространяемых готовых решениях (АОТ, …) Проблемы технической эффективности (анализа, типизации) Качество лингвистических баз данных и их адаптируемость к конкретным задачам

ПРЕЗЕНТАЦИЯ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ АОТ См.