РЕФЕРЕНЦИАЛЬНЫЙ ВЫБОР КАК МНОГОФАКТОРНЫЙ ВЕРОЯТНОСТНЫЙ ПРОЦЕСС А.А.Кибрик, Г.Б.Добров, Д.А.Залманов, А.С.Линник, Н.В.Лукашевич aakibrik@gmail.com.

Презентация:



Advertisements
Похожие презентации
1 Тема IV-9. Данная и новая информация ДИСКУРС © А.А.Кибрик, 2008.
Advertisements

Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Применение генетических алгоритмов для генерации числовых последовательностей, описывающих движение, на примере шага вперед человекоподобного робота Ю.К.
РЕФЕРЕНЦИАЛЬНЫЙ ВЫБОР: ЛИНГВИСТИЧЕСКИЕ, ПСИХОЛОГИЧЕСКИЕ И ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ А.А.Кибрик (Институт языкознания РАН и МГУ)
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
РАСПРЕДЕЛЕНИЕ УЧАСТНИКОВ ККР-2011 ПО ТИПАМ ОБРАЗОВАТЕЛЬНЫХ УЧРЕЖДЕНИЙ Тип ОУДоля учащихся в общем количестве участников ККР-2011 СОШ115/72% ООШ35/22% НОШ9/6.
Урок повторения по теме: «Сила». Задание 1 Задание 2.
Тема 11 Медицинская помощь и лечение (схема 1). Тема 11 Медицинская помощь и лечение (схема 2)
1 Построение логических схем (Презентация). 2 Правило построения логических схем: 1.Определить число логических переменных. 2.Определить количество базовых.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Тренировочное тестирование-2008 Ответы к заданиям КИМ Часть I.
НазваниеОписание ОбъектПример, шаблон, наблюдение АтрибутПризнак, независимая переменная, свойство Метка класса Зависимая переменная, целевая переменная,
Тема: ФОРМУЛЫ КОРНЕЙ КВАДРАТНЫХ УРАВНЕНИЙ Цели: повторить алгоритм решения полных квадратных уравнений, понятие и смысл дискриминанта; показать правила.
Свойства функций Область определения, множество значений, чётность, нечётность, возрастание, убывание.
1. Определить последовательность проезда перекрестка
Маршрутный лист «Числа до 100» ? ? ?
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Урок-обобщение (7 класс – алгебра) МОУ "СОШ 45 г. Чебоксары" Кабуркина М. Н.1.
1 Составление алгоритмов с ветвлением Цель: научиться составлять блок-схемы с ветвлением.

Транксрипт:

РЕФЕРЕНЦИАЛЬНЫЙ ВЫБОР КАК МНОГОФАКТОРНЫЙ ВЕРОЯТНОСТНЫЙ ПРОЦЕСС А.А.Кибрик, Г.Б.Добров, Д.А.Залманов, А.С.Линник, Н.В.Лукашевич

2 2 Референциальный выбор в дискурсе Когда говорящему нужно упомянуть некоторый конкретный, определенный референт, он делает выбор из нескольких возможностей, в том числе: полной именной группы (ИГ) имя собственное имя нарицательное (с модификаторами) = дескрипция редуцированной ИГ, напр. местоимения 3 лица или нулевого выражения Как осуществляется этот выбор?

3 3 Пример (фрагмент из рассказа Ф. Искандера Сталин и Вучетич) Сталин мирно беседовал с Вучетичем. "Товарищ Сталин, что такое старость?" - спросил Вучетич, разумеется, имея в виду философский смысл проблемы. И вдруг лицо Сталина мгновенно исказилось гневом и ненавистью. Он стал страшен. Вучетич помертвел, не в силах осознать, чем разгневал Сталина. Место- имение Полная ИГ нуль кореферентность антецедент

4 4 План доклада I. Референциальный выбор как многофакторный процесс II. Количественный и нейросетевой подходы к референциальному выбору III. Корпусное исследование RefRhet: состояние и перспективы

5 5 Многофакторный характер референциального выбора Существует большое число факторов референциального выбора Расстояние до антецедента По линейной структуре дискурса По иерархической структуре дискурса По глобальной структуре дискурса Роль антецедента Одушевленность референта Протагонизм Ни один из этих факторов в отдельности не может объяснить референциальный выбор

6 6 Интеграция факторов В каждой точке дискурса все факторы некоторым образом суммируются и порождают интегральную характеристику, которую можно назвать коэффициентом активации референта Коэффициент активации предопределяет референциальный выбор Низкий полная ИГ Средний полная или редуцированная ИГ Высокий редуцированная ИГ

7 7 Когнитивная многофакторная модель референциального выбора Дискурсивный контекст Коэфф. активации референта Свойства референта Реф. выбор Факторы активации

8 8 Количественный подход (Kibrik 1996, 1999) Каждый фактор – это переменная, имеющая набор возможных значений Каждому из значений переменной соответствует числовой вес В каждой точке дискурса для каждого референта могут быть идентифицированы значения всех факторов и, соответственно, все их количественные вклады Проблемы исследования: Детерминированная зависимость Не моделируется нелинейное взаимодействие между факторами Веса были подобраны вручную

9 9 Нейросетевой подход (Gruening and Kibrik 2005) Алгоритм машинного обучения Нелинейное взаимодействие факторов Автоматическое приписывание весов Возможность редуцировать число факторов («обрезка») Проблемы исследования: Малый объем данных Лишь один метод машинного обучения Невысокая скорость обучения Низкая трактуемость результата Исчезновение когнитивной интерпретации

10 Дальнейшее развитие исследований Большой корпус (несколько десятков тысяч реф. выражений) Более точные процедуры контроля качества Определение оптимального набора факторов, объясняющего референциальный выбор Применение большего числа методов машинного обучения Построение статистической модели реф. выбора Восстановление когнитивной интерпретации

11 Корпус RefRhet Английский язык Деловая проза Исходный материал - корпус RST Discourse Treebank Аннотирован по иер. структуре 385 газетных статей из Wall Street Journal Дополнительный компонент – референциальная разметка Корпус RefRhet Около референциальных выражений

12 Пример иерархического графа

13 Схема референциальной разметки Программа ММАХ2 Krasavina and Chiarcos 2007 Размечены все аннотируемые выражения (маркабулы – markables) референциальные выражения их антецеденты Размечены кореферентные связи Размечены признаки реф. выражений и контекста, которые могут быть факторами реф. выбора

14

15 Создание референциальной разметки О. Красавина А. Антонова Д. Залманов А. Линник М. Худякова Студенты-практиканты ОТиПЛ

16 Состояние референциальной разметки корпуса RefRhet Размечен на 2/3 Дальнейшие результаты основаны на следующих данных 247 текстов 110 тыс. словоупотреблений маркабул 7097 имен собственных 8560 определенных дескрипций 1797 местоимений 3 лица 3756 надежных пар «анафор – антецедент» имена собственные 1623 (43%) определенные дескрипции 971 (26%) местоимения 1162 (31%)

17 Факторы референциального выбора Признаки референта: первое/непервое упоминание в дискурсе (referentiality) одушевленность (animacy) протагонизм Признаки антецедента: Тип синтаксической группы (phrase_type) Грамматическая роль (gramm_role) Референциальная форма (np_form, def_np_form) Входит ли в состав прямой речи (dir_speech)

18 Факторы референциального выбора Признаки анафора: Тип синтаксической группы (phrase_type) Грамматическая роль (gramm_role) Входит ли в состав прямой речи (dir_speech) Расстояния между анафором и антецедентом: Расстояние в словах Расстояние в маркабулах Линейное расстояние в клаузах Иерархическое расстояние в элементарных дискурсивных единицах

19 Постановка задачи машинного обучения Зависимая переменная: Референциальная форма (np_form) Двуклассовая задача: полная ИГ vs. местоимение Трехклассовая задача: определенная дескрипция vs. имя собственное vs. местоимение Максимизируем аккуратность: отношение правильных случаев предсказания к общему количеству 19

20 Методы машинного обучения (Weka) Легко интерпретируемые методы: Логические алгоритмы Деревья решений (C4.5) Решающие правила (JRip) Более высокое качество: Логистическая регрессия Контроль качества – метод скользящего контроля

21 Примеры правил, порождаемых алгоритмом JRip (Грамматическая роль антецедента = подлежащее) И (Иерархическое расстояние 1.5) И (Расстояние в словах 7) => местоимение (Одушевленный) И (Расстояние в маркабулах 2) И (Расстояние в словах 11) => местоимение 21

22 Основные результаты Аккуратность Двуклассовая задача: логистическая регрессия % логические алгоритмы - 85% Трехклассовая задача: логистическая регрессия - 74% логические алгоритмы - 72% 22

23 Многофакторность выбора ПризнакТрехклассовая задача Двуклассовая задача Наибольший класс43%69% Расстояние в словах 55%76% Иерархическое расстояние 53.5%74.8% Грамматическая роль анафора 45.2%70% Анафор в прямой речи 43.8%70% Одушевленный47.3%71.5% Комбинация факторов 74%86.1% 23

24 Референциальный выбор – вероятностный процесс По данным Kibrik 1999 Потенциальные референциальные выражения Фактические реф. выражения Только полная ИГ (19%) Полная ИГ (49%) Полная ИГ, ?местоимение (21 %) Местоимение или полная ИГ (28%) Местоимение (51%) Местоимение, ?полная ИГ (23%) Только местоимение (9%)

25 Перспективы вероятностной модели Предсказание реф. выбора не может быть полностью детерминированным Есть часть случаев, когда реф. выбор является произвольным Важно настроить модель так, чтобы она обрабатывала такие случаи особым образом Это задача для дальнейших исследований Логистическая регрессия выдает оценки вероятности для каждой из опций референциального выбора

26 Вероятностная многофакторная модель референциального выбора Дискурсивный контекст Вероятность использования референциального средства Свойства референта Реф. выбор Факторы реф. выбора

27 Выводы Большой корпус для референциальных исследований Многофакторность Уже достигнут высокий уровень правильного предсказания реф. выбора И это еще не предел Вероятностный характер реф. выбора Возможно, вероятностную оценку можно проинтерпретировать как коэффициент активации из когнитивной модели Применимость для широкого круга языковых выборов