Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемСтепан Шелепугин
1 Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках
2 Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста
3 Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 2. Автоматический анализ текста на морфологическом уровне 1.Морфологически й уровень в ЛИТ 2.Основные понятия морфологии в компьютерной морфологии 3.Основные процедуры компьютерной морфологии 4.Компьютерная морфология русского языка 5.Технологии морфологического анализа 6.«Предсказание» (типизация) 7.Вопросы, смежные с синтаксисом
4 ПЕРИОДИЗАЦИЯ РАЗРАБОТОК ПО КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА Первые разработки (для машинного перевода) – сер. 50-х – конец 60-х гг. Освоение новых функций – конец 60-х – конец 80-х гг. Освоение словаря Зализняка – конец 80-х - конец 90-х гг. Компьютерная морфология русского языка – «написанная книга»?.. – 2000-е гг.
5 ПЕРВЫЕ РАЗРАБОТКИ В ОБЛАСТИ КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА 1954 г. -Джорджтаунский эксперимент (январь) -Начало разработок систем МП в СССР: -с английского (Институте точной механики и вычислительной техники) -и французского (в Институте прикладной математики) языков Конец 50-х гг.: -Разработки систем МП с русского языка в США: -в Вашингтонском университете ( г.) – со словарем словоформ -в Гарвардском университете ( ) – с модулем морфологического анализа «справа налево» (inverse inflection) -Группа под руководством Ю.А.Моторина (1956/1958 г.) – англо-русский перевод Начало 60-х гг.: -Университет Уэйна (США) – перевод со словарем словоформ -Национальное бюро стандартов, Джорджтаунский университет (США) - с модулем морфологического анализа. -Перевод с русского в Гренобльском университете (Франция)
6 МОРФОЛОГИЧЕСКИЕ МОДУЛИ В НОВЫХ ФУНКЦИЯХ Систематизация опыта построения морфологических синтезаторов в работах З.М.Волоцкой (1958), Т.М.Николаевой (1961), далее - О.А.Штерновой (1977) Работа А.А.Раскиной и Т.С.Чепиго в ВИНИТИ (1967): построение словаря словоформ (нач. с 10 тыс.) с конечной целью – система перифразирования предложений на тему «Космос» Комплексная система обработки информации в ВИНИТИ (группа Г.Г.Белоногова): ИП вместе с набором автоматизированных вспомогательных функций (описан в публикациях гг.)
7 ИСПОЛЬЗОВАНИЕ МОРФОЛОГИЧЕСКОГО АНАЛИЗА В ТЕХНОЛОГИЧЕСКОЙ ЦЕПОЧКЕ ВИНИТИ
8 СЛОВАРЬ ЗАЛИЗНЯКА 1974 «Обратный словарь русского языка» 1977 «Грамматический словарь русского языка» е изд. ГСРЯ е изд. ГСРЯ е изд. ГСРЯ (добавлены имена собственные) Автор – Андрей Анатольевич Зализняк (с 1997 г. академик РАН)
9 ПЕРЕНОС СЛОВАРЯ ЗАЛИЗНЯКА НА МАШИННЫЕ НОСИТЕЛИ Автоматизированная лексикографическая система УНИЛЕКС (1987), УНИЛЕКС-2 (1989), УНИЛЕКС-Т (1993) Объявление в журнале Language о возможности приобрести электронную версию ГСРЯ у Университета Бригема Янга (Brigham Young University, штат Юта) (1992) Интеграция словаря Зализняка в STARLING - рабочую программную среду для лингвиста (ок.1989, в Интернете с starling.rinet.ru)
10 ФРАГМЕНТ СТРАНИЦЫ СЛОВАРЯ ЗАЛИЗНЯКА
11 ДОСТОИНСТВА СЛОВАРЯ ЗАЛИЗНЯКА полнота словника детальность словоизменительной характеристики
12 ФРАГМЕНТ СЛОВАРЯ ЗАЛИЗНЯКА, ЭКСПОРТИРУЕМОГО ИЗ STARLING WORDGRAMMARTRANS -де3 (_без удар._) част. -ка3 (_без удар._) част. -либо5 част. -нибудь5 (_без удар._) част. -с0 част. -таки5 част. -то3 (_без удар._) част. а1 (_без удар._) союзah and butI eh а1 част. а1 межд. а1 с 0 (_название буквы а_) а-конто4 с 0
13 СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ Идентификатор лексемыИдентификатор парадигмы порогов302 пород005 породнени002 порожда401
14 СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ Идентификатор лексемы ОсноваИдентификатор парадигмы пороговыйпорогов302 породапород005 породнениепороднени002 порождатьпорожда401
15 ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ КОДОВ ГСРЯ В МОРФОЛОГИЧЕСКИХ МОДУЛЯХ Могут быть слишком дробными (для обработки письменного текста) дол м 1е//1а порт м 1еимеют одинаковый набор окончаний клён м 1а Могут быть недостаточно точными (для некоторых процедур компьютерной морфологии) восстановление начальной формы: бугор м 1*bбугра: (- ра), (+ ор) котёл м 1*bкотла: (- ла), (+ ёл) псалом м 1*bпсалма: (- ма), (+ ом) сон м 1*bсна: (- на), (+ он) хребет м 1*bхребта: (- та), (+ ет)
16 НЕДОСТАТКИ СЛОВАРЯ ЗАЛИЗНЯКА сложная структура словоизменительной характеристики формальная «вседозволенность» (свобода образования форм множественного числа - вреды, зарезы, неонацизмы, кратких форм - бегл, кредитово, соляны, сравнительной степени - тяжелораненее, убитее, изюбревее) неполнота словника
17 РАЗРАБОТКИ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ ДЛЯ РУССКОГО ЯЗЫКА ПОСЛЕ СЛОВАРЯ ЗАЛИЗНЯКА Коммерческие модули проверки орфографии – «ОРФО», «ПРОПИСЬ»; в составе текстовых редакторов «ЛЕКСИКОН», «ДЕЛА В ПОРЯДКЕ» Вопрос как строить морфологические модули решается на уровне кандидатских диссертаций (О.В.Минтусова 1990, И.В.Жарков 1995, Г.О.Сидоров 1995)
18 КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ Модули морфологической обработки предлагаются в качестве готового к употреблению товара (Руссикон, ABBYY, Медиа-Лингва, Гарант-Парк- Интернет,… ) Модули морфологической обработки распространяются свободно (АОТ, А.Поминов, С.Сикорский…) Что дальше?
19 КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (1) анализатор он-лайнразвертывание парадигмы анализ Морфологический анализатор загруж.анализ Морфологические классы русского языка он-лайнпредставление морфологии анализатор - генератор парадигмы он-лайнтипизация словарных слов анализ развертывание парадигмы Словарь ГСРЯ в текстовом формате загруж.типизация словарных слов Словарь ГСРЯ в формате базы данных dbf загруж.типизация словарных слов Русская морфология (RMU/RMS) он-лайнанализ развертывание парадигмы типизация несловарных слов
20 КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (2) анализатор - генератор парадигмы он-лайнанализ развертывание парадигмы Программа морфологического анализа загруж.анализ типизация несловарных слов Русский морфологический словарь загруж.представление морфологии типизация словарных слов m/competencies/content- analysis/demos/russian.en. html Russian Morphological Analysis он-лайнанализ версия русского морфологического анализатора он-лайн / загруж. анализ развертывание парадигмы SiliconValley/Bit/1116/ Russian Morphological Dictionary загруж.анализ
21 КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ: повестка дня Потребность в свободно распространяемых готовых решениях (АОТ, …) Проблемы технической эффективности (анализа, типизации) Качество лингвистических баз данных и их адаптируемость к конкретным задачам
22 ПРЕЗЕНТАЦИЯ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ АОТ См.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.