Генерация текстов на естественном языке (ГТЕЯ) Ч. 1. Системы генерации текстов, основанные на правилах Ч. 2. Современное состояние ГТЕЯ.

Презентация:



Advertisements
Похожие презентации
Актуальные вопросы компьютерной лингвистики Часть 2. Генерация текстов на ЕЯ.
Advertisements

Зачетная работа по теме « Основы баз данных » Выполнила ученица 11-А класса Серегина Ольга.
От сложного – к простому. От непонятного – к понятному.
ACCESS 2003 Простые запросы. Теория Запрос на выборку позволяет выбрать данные из одной или нескольких таблиц по определенному условию. В результате выполнения.
Естественно-языковые системы Выполнили: Книга А., Мишалевский С., Нагорный А., Крупский П. Группа – 9ВМ40-04.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Моделирование как метод познания. Модели Модель – это объект, который используется для представления другого объекта (оригинала) с определенной целью.
Инструкция по созданию базы данных в Microsoft Access
ЗАДАЧИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ. 1.Что такое компьютерная лингвистика? 2. История. 3. Направления компьютерной лингвистики. 4. Заключение.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Способы построения отрезка Выбрать инструмент Отрезок (панель Геометрия). Для вызова расширенной панели команд необходимо нажать и удерживать нажатой.
Федеральное государственное бюджетное образовательное учреждение высшего образования «Омский государственный технический университет» Кафедра «Прикладная.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Выполнение запросов, создание и редактирование отчета MS Access.
Кодирование текстовой информации © Кошля Л.Н. учитель информатики.
Построение запросов в Access. Преимущества запросов Они позволяют собирать воедино информацию из нескольких таблиц, учитывая связи, установленные между.
Создание тестов и проведение тестирования. -Дизайнер тестов. -Набор вопросов. -Назначенные тесты. -Проверка тестов.
Объектное программирование Учебное пособие Следующая страница.
Разработка пользовательских интерфейсов Выполнил: Бредихин Юрий Вячеславович студент 3 курса, 31-И группы Старый Оскол, 2015.
МНОГОТАБЛИЧНЫЕ БАЗЫ ДАННЫХ ГБОУ СОШ 840. Достаточно часто встречается ситуация, когда хранить все данные в одной таблице реляционной БД неудобно и нерационально.
Транксрипт:

Генерация текстов на естественном языке (ГТЕЯ) Ч. 1. Системы генерации текстов, основанные на правилах Ч. 2. Современное состояние ГТЕЯ

ГТЕЯ NLG ГТЕЯ изучает вопросы автоматического порождения высококачественных текстов на ЕЯ из внутрикомпьютерного представления информации.

Анализ текста и прикладные системы vs. ГТЕЯ МП - MT МП - MT ИП - IR ИП - IR ФП – IE ФП – IE Вопросно-ответные системы – QA Вопросно-ответные системы – QA Автоматическое реферирование – Text Summarization Автоматическое реферирование – Text Summarization Автоматическое индексирование – TE Автоматическое индексирование – TE Text Data Mining – поиск новой информации в массивах текстов (интеллектуальный поиск) Text Data Mining – поиск новой информации в массивах текстов (интеллектуальный поиск)

История ГТЕЯ (в англоязычном сообществе) Начало - 60 ые годы Начало - 60 ые годы 1986 Р.Гришман «poor cousin» 1986 Р.Гришман «poor cousin» Конец 80 ых – PENMAN Конец 80 ых – PENMAN Начало 90 ых – многоязыковая генерация одновременно с развитием исследований по дискурсу (система FoG в Канаде) Начало 90 ых – многоязыковая генерация одновременно с развитием исследований по дискурсу (система FoG в Канаде)

История (западное направление) The John Bateman and Michael Zock's list of Natural Language Generation Systems

-c 1960 до 1984 в год открывалось в среднем 5 проектов; - с 1985 по чуть более 10 проектов; - с 1990 по проектов; - с 1999 по проектов; - с 2005 по 2007 – 5 проектов.

Модель «Смысл-Текст» И.А. Мельчука (70 ые) Модели Ю.С. Мартемьянова (70-90) Эксперименты: Работы А.В. Зубова по синтезу связных текстов (70 ые) Работы А.Б. Сосинского по «порождению» текстов математических статей (начало 90 ых) AGILE (на основе KPML) DEMLinG (М.В. Болдасов) … История (отечественное направление)

Методы генерации (шаблонные) Работы А.Б. Сосинского по «порождению» текстов математических статей (начало 90 ых) 1. Текст статьи на русском языке 2. Пересказ на «искусственном русском препарированном математическом языке» 3. Перевод на «естественный базовый математический английский язык» 4. Текст статьи на английском языке

Методы генерации (шаблонные) Деловые характеристики на сотрудников Employee Appraiser. «Общение/устный обмен идеями». Можно указать пол сотрудника, в каком лице (2 или 3) должен быть составлен текст. Employee Appraiser. «Общение/устный обмен идеями». Можно указать пол сотрудника, в каком лице (2 или 3) должен быть составлен текст. Performance now: Performance now: « Bert does not display the verbal communication skills required, and his written communications fall short of the quality needed. Additionally, he does not exhibit the listening and comprehension skills necessary for satisfactory performance of his job». « Bert does not display the verbal communication skills required, and his written communications fall short of the quality needed. Additionally, he does not exhibit the listening and comprehension skills necessary for satisfactory performance of his job».

Лингвистически мотивированные технологии ГТЕЯ Сопровождаемость «Суровые зимы ожидаются в 2010 году vs. В 2010 году ожидаются суровые зимы. » Сопровождаемость «Суровые зимы ожидаются в 2010 году vs. В 2010 году ожидаются суровые зимы. » Высокое качество текстов Высокое качество текстов Многоязыковость Многоязыковость Соответствие стандартам Соответствие стандартам

Этапы генерации ЛМ технологии ГТЕЯ Входное представление содержания текста макропланирование план текста A-box (assertion box) микро планирование последовательность планов предложений SPL (Sentence Planning Language) реализация текст форматирование или устный вывод

Схема генерации

Типы входных данных систем ГТЕЯ Поток данных – отчеты (метеосводки, биржевые сводки, и др.) БД формальная спецификация Семантическое представление

FoG ( ) 0) Исходные данные 1) Понятия ПО2) Элементы текста время Напр. ветра Скорост ь ветра Напр. ветра wind southwest diminish to wind light southwest 7 a.m southwest 9 a.m southwest …………… 9 p.m.28012light(west) 10p.m.30711light(northwest) 11p.m.1828light(south) 12p.m.24610light(southwest)

PostGraphe (1996) текстовые отчеты и графики динамики прибыли компаний на французском языке: текстовые отчеты и графики динамики прибыли компаний на французском языке: De 1987 à 1989 les profits de la compagnie A ont augmenté de 30$ á 40$. Jusquen 1990 ils ont diminué de 40$ á 35$. De 1987 à 1989 les profits de la compagnie A ont augmenté de 30$ á 40$. Jusquen 1990 ils ont diminué de 40$ á 35$. De 1987 à 1988 les profits de B ont augmenté de 160$ á 165$. Pendant 1 année ils ont diminué de 25$. Jusquen 1990 ils ont augmenté de 140$ á 155$. De 1987 à 1988 les profits de B ont augmenté de 160$ á 165$. Pendant 1 année ils ont diminué de 25$. Jusquen 1990 ils ont augmenté de 140$ á 155$.

Типы входных данных систем ГТЕЯ Поток данных – отчеты (метеосводки, биржевые сводки, и др.) БД - отчеты; определение, описание, сравнение Формальная спецификация Семантическое представление

Система TEXT (К. Маккьюин )

Пример текста, порожденного системой ТЕКСТ: Хоби Кэт – это марка катамарана ( идентификация ), который является разновидностью парусной шлюпки ( идентификация/аналогия ). У катамарана как и у всех парусных шлюпок есть паруса и мачта ( сходство ), однако у них не один корпус, а два ( различие ). У катамарана типа Хоби Кэт есть брезентовый кокпит, соединяющий два понтона, и один или два паруса. ( атрибутов ). У 16-футового Хоби Кэт есть грот мачта и стаксель, у 14-футового – только грот ( конкретная иллюстрация ). Идентификация - идентификация/аналогия – сходство – различие – атрибутов – конкретная иллюстрация

Дискурсивные стратегии Схема состава: Схема состава: Состав (1) Причина – следствие* /Атрибутив*/ [Глубинная идентификация /Глубинный атрибутов (2) [Конкретная иллюстрация/Основание] [Сравнение/Аналогия]+ (3) [Развитие/Объяснение/Атрибутив/Аналогия] (4) Паровые и электрические торпеды (1) Современные торпеды бывают двух основных типов. (2) модели с паровым двигателем развивают скорость от 27 до модели с паровым двигателем развивают скорость от 27 до 45 узлов и имеют радиус действия от 4000 до ярдов(3) 45 узлов и имеют радиус действия от 4000 до ярдов(3) Модели с электрическим двигателем обладают близкими Модели с электрическим двигателем обладают близкими характеристиками, (4), но не оставляют кильватерного следа, создаваемого выбросом паровой турбины.

Типы входных данных систем ГТЕЯ Поток данных – отчеты (метеосводки, биржевые сводки, и др.) БД - отчеты; определение, описание, сравнение Формальная спецификация (SQL, Rational, Visio, TAMOT и др.) – тип теста соответствует типу спецификации: запрос к БД, инструкция Семантическое представление

InBase - DEMLinG Запрос пользователя к БД на ЕЯ -> InBase DEMLinG -> InBase DEMLinG перифраз запроса на том же или другом ЕЯ перифраз запроса на том же или другом ЕЯ Принимает на борт полтонны Принимает на борт полтонны InBase Select: Марка автомобиля, Цена From: (подержанные автомобили) From: (подержанные автомобили) Where: Грузоподъемность=500 кг Where: Грузоподъемность=500 кг DEMLinG DEMLinG Автомобили грузоподъемностью 500 кг Автомобили грузоподъемностью 500 кг

Типы входных данных систем ГТЕЯ Поток данных – отчеты (метеосводки, биржевые сводки, и др.) БД - отчеты; определение, описание, сравнение Формальная спецификация (SQL, Rational, Visio, TAMOT и др.) – тип теста соответствует типу спецификации: запрос к БД, инструкция Семантическое представление - тип теста соответствует семантическому представлению: инструкция (AJILE), биография (KPML) и др.

Создание полилинии из прямых и дуг Запустите команду PLINE 1. Нарисуйте отрезок Укажите начальную точку отрезка и укажите конечную точку отрезка. Укажите начальную точку отрезка и укажите конечную точку отрезка. 2. Нарисуйте дугу Перейдите в режим Arc. Перейдите в режим Arc. Введите команду (а). На экране появится диалоговое окно Arc mode confirmation. Нажмите кнопку ОК в диалоговом окне Arc mode confirmation. Диалоговое окно Arc mode confirmation исчезнет с экрана. Введите команду (а). На экране появится диалоговое окно Arc mode confirmation. Нажмите кнопку ОК в диалоговом окне Arc mode confirmation. Диалоговое окно Arc mode confirmation исчезнет с экрана. Укажите вторую и конечную точки дуги. 3. Нарисуйте отрезок. 4. Нажмите клавишу Return, чтобы завершить полилинию.

Dart-bio ( ) (s0 / study :actor (Anni-Albers / female) :actor (Anni-Albers / female) :accompaniment (Martin-Brandenburg / male) :accompaniment (Martin-Brandenburg / male) :actee (x1 / art) :actee (x1 / art) :temporal-locating (x2 / three-d-time :year )) :temporal-locating (x2 / three-d-time :year )) В Анни Алберс изучала искусство у Мартина БранденбургаВ Анни Алберс изучала искусство у Мартина Бранденбурга

Процедуры генерации 1. Макропланирование Поезд «Каледония-экспресс» отправляется из Абердина в 10 часов.

2. Создание тема-рематической структуры предложений В системе Маккьюин TEXT использовалась адаптированная версия этих правил [Sidner, 1979] : 1) переместить фокус на объект, упомянутый в предшествующем сообщении; 2) сохранить фокус; 3) вернуться к теме предшествующего обсуждения; 4) выбрать высказывание, имеющее наибольшее число эксплицитных связей с предшествующим высказыванием.

3. Вставка ссылочных конструкций Следующий поезд – Невский Экспресс. Он отправляется в 7 утра. Многие туристические гиды советуют ехать на этом поезде. Интродукция Анафора (анафорическое местоимение) Дефинитное описание

4. Агрегация Лексическая – сотрудник женского пола сотрудница Простое сочинение 27 го пройдут проливные дожди и 28 пройдут проливные дожди Сочинение типа общий член - 27 го пройдут проливные дожди + 28 пройдут проливные дожди 27 и 28 пройдут проливные дожди.