РЕФЕРЕНЦИАЛЬНЫЙ ВЫБОР: ЛИНГВИСТИЧЕСКИЕ, ПСИХОЛОГИЧЕСКИЕ И ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ А.А.Кибрик (Институт языкознания РАН и МГУ) kibrik@comtv.ru.

Презентация:



Advertisements
Похожие презентации
РЕФЕРЕНЦИАЛЬНЫЙ ВЫБОР КАК МНОГОФАКТОРНЫЙ ВЕРОЯТНОСТНЫЙ ПРОЦЕСС А.А.Кибрик, Г.Б.Добров, Д.А.Залманов, А.С.Линник, Н.В.Лукашевич
Advertisements

1 Тема IV-9. Данная и новая информация ДИСКУРС © А.А.Кибрик, 2008.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Lets sing! One, two, three, four, five, Once I caught a fish alive, Six, seven, eight, nine, ten, Then I let it go again. Why did I let it go? Because.
Тема II-6. Теория риторической структуры ДИСКУРС © А.А.Кибрик, 2008.
Тема 4. Глобальная структура и единство дискурса Общая теория словесности © А.А.Кибрик, 2005.
Типовые расчёты Растворы

Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Michael Jackson
1 Составление алгоритмов с ветвлением Цель: научиться составлять блок-схемы с ветвлением.
Математические модели Динамические системы. Модели Математическое моделирование процессов отбора2.
Учебный курс Основы вычислительной математики Лекция 1 доктор физико-математических наук, профессор Лобанов Алексей Иванович.
1 3. Системы линейных уравнений. Леопо́льд Кро́некер.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
1 Тема II-6. Теория риторической структуры ДИСКУРС © А.А.Кибрик, 2012.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
1 ТрадиционныйКомпетентностный Главная идея: знания приводят к личностному успеху. Главная идея: к личностному успеху приводит опыт самостоятельного решения.
Использование нейросимулятора при определении внешнего вида ребенка по параметрам родителей.
Теория статистики Описательная статистика и получение статистических выводов Часть 2. 1.
Транксрипт:

РЕФЕРЕНЦИАЛЬНЫЙ ВЫБОР: ЛИНГВИСТИЧЕСКИЕ, ПСИХОЛОГИЧЕСКИЕ И ВЫЧИСЛИТЕЛЬНЫЕ АСПЕКТЫ А.А.Кибрик (Институт языкознания РАН и МГУ)

2 Референциальный выбор в дискурсе (тексте) Когда говорящему нужно упомянуть некоторый референт, он делает выбор из нескольких возможностей, в том числе: полной именной группы (ИГ) редуцированной ИГ, напр. местоимения 3 лица или нулевого выражения Как осуществляется этот выбор?

3 Пример (фрагмент из рассказа Ф. Искандера Сталин и Вучетич) Сталин мирно беседовал с Вучетичем. "Товарищ Сталин, что такое старость?" - спросил Вучетич, разумеется, имея в виду философский смысл проблемы. И вдруг лицо Сталина мгновенно исказилось гневом и ненавистью. Он стал страшен. Вучетич помертвел, не в силах осознать, чем разгневал Сталина. Место- имение Полная ИГ нуль кореферентность антецедент

4 План доклада I. Референциальный выбор как многофакторный процесс II. Количественная и нейросетевая модели референциального выбора III. Корпусное исследование: состояние и перспективы

5 I. Референциальный выбор как многофакторный процесс В различных исследованиях на первый план выдвигаются разные характеристики контекста в качестве основных факторов

6 Пример (Ф. Искандер) В то раннее утро дядя Сандро ехал верхом из Гудаут в село Ачандары, где ___________ собирался погостить несколько дней у своего родственника в ожидании поминального пиршества, которое должно было состояться в соседнем доме. В наших краях сорокадневье устраивается не очень точно – то к погоде прилаживаются, то еще какие- нибудь хозяйственные расчеты, - так что ___________ решил, что лучше не рисковать и подождать на месте, чем пропустить хорошие поминки. И вот едет ___________ по приморской дороге и вдруг видит, что недалеко от берега на воде сидит невиданная в наших краях черная птица с длинной шеей. (Ф. Искандер, «Сандро из Чегема») он дядя Сандро он

7 Существительное при близком расстоянии Почувствовав под ногами дно, конь припустил, а птица, говаривал дядя Сандро, припустить не могла, потому что хоть шея у нее была длинной, с его руку, ноги все же у нее были короткие, особенно против лошадиных. В последнее мгновенье она попыталась нырнуть, но дядя Сандро успел ухватить ее и приподнять над водой. Дядя Сандро страшно замерз и разозлился на эту странную птицу Хотел он ей тут же размозжить голову, но вспомнил...

8 Местоимение при далеком расстоянии After juice-and-cookie time, she gave James his counting lesson, and this is how she did it. One, two, three, four, five, once I caught a fish alive, six, seven, eight, nine, ten, but I let him go again. Why did you let him go? Because he bit my finger so. Which finger did he bite? This little one upon the right. And she gave James' little finger a nibble,

9 Разный РВ при близком расстоянии (В. Шукшин) Степан раскачнулся 4.5. и ø боднул Ивана головой Иван отпустил его 4.7. и ø ударил ø Степан отлетел к двери, 4.9. ø открыл ее затылком, ø упал в сенцы Ø Вскочил, ø схватил что попалось под руку

10 В разных исследованиях – разные факторы РВ Расстояние до антецедента Линейное vs. иерархическое расстояние Граница фрагментов дискурса – абзацев и т.п. частей Роль антецедента Одушевленность Значимость референта в дискурсе

11 Проблема Многие из этих факторов очень важны; например, фактор А централен в случае Х, фактор Б централен в случае Y Обычно остается неясным, как эти факторы взаимодействуют, например, какова роль фактора А в случае Y Решение: необходима модель, описывающая совместную работу и взаимодействие факторов

12 Когнитивные предпосылки Когнитивный компонент, отвечающий за референциальный выбор, - это то, что известно как «кратковременная память» или «рабочая память» (РП) Степень активации (коэффициент активации) референта в РП непосредственно предсказывать реф. выбор Коэффициент активации в свою очередь зависит от множества факторов – факторов активации

13 Когнитивная многофакторная модель референциального выбора Дискурсивный контекст Коэфф. активации референта (КА) Свойства референта Фильтры Реф. выбор Факторы активации

14 II. Количественная модель Степень активации референта может быть количественно оценена Эту величину будем называть коэффициентом активации (КА) КА образуется как сумма количественных вкладов каждого из факторов активации

15 Подробнее Каждый фактор – это переменная, имеющая набор возможных значений Например, расстояние до антецедента: 1, 2, 3+ Каждому из значений переменной соответствует числовой вес Например: 1 – – – 0 В каждой точке дискурса для каждого референта могут быть идентифицированы значения всех факторов и, соответственно, все их количественные вклады

16 Продолжение Таким образом, в каждой точке дискурса для каждого референта может быть высчитан КА КА выше порогового уровня редуцированное средство КА ниже порогового уровня полная ИГ Реализации количественной модели Для русского языка – Kibrik 1996 Для английского языка – Kibrik 1999

17 Референциальная стратегия Пример работы количественной модели

18 Общекогнитивные следствия количественной модели Некоторые центральные проблемы в исследованиях рабочей памяти (РП) (1) Объем РП: Сколько единиц информации РП может вмещать одновременно? (2) Контроль над РП: в силу чего информация попадает в РП? (3) Забывание: в силу чего информация уходит из РП?

19 Проблемные точки количественной модели Значимость факторов определяется на индивидуальной основе Числовые веса подбираются вручную Взаимодействие между факторами моделируется как простое сложение, игнорируются возможные нелинейные эффекты Нежелательные числовые эффекты: КА меньше 0, больше 1

20 Решение: более адекватная математическая модель Значимость факторов определяется в их совокупности Числовые веса подбираются автоматически Взаимодействие между факторами может быть математически сложным Значения выходной переменной может быть закреплено в интервале от 0 до некоторого верхнего предела

21 Модель нейронных сетей (Gruening and Kibrik 2005) Основана на нейробиологической аналогии Не требует предварительных гипотез о структуре данных Самообучается на основе имеющихся данных Автоматически приписывает веса входным факторам Может редуцировать число факторов

22 Структура модели НС Состоит из узлов (нейронов) Узлы связаны весами (синапсами) уровни: входной выходной скрытый нелинейное взаимодействие между входными узлами на скрытом уровне

23 Характеристики НС с прямой связью Данные поступают во входной уровень Далее активация распространяется в скрытый уровень И затем в выходной уровень Где и считываются результаты вычислений Могут быть непосредственные связи между входным и выходным уровнями – элементы линейности Алгоритм обучения НС – обратное распространение (back propagation)

24 Структура модели НС с прямой связью (feed-forward)

25 Задача модели НС Взять исходные факторы, выявленные в количественной модели Попробовать предсказать фактический референциальный выбор Сравнить результат с количественным подходом 11 факторов дали 24 входных узла нейронной сети

26 Симуляция 1: полный набор данных Несколько повторных проб В каждом случае тренировка сети в течение 1000 эпох НС научилась предсказывать референциальный выбор с довольно высокой точностью (не более 6% исключений)

27 Симуляция 2: обрезка Полная сеть весов Какие входные узлы можно сократить без существенного ухудшения результатов? После обрезки остается около 30 узлов Многие входные узлы оказываются избыточными (не имеют никаких связей), то есть или не оказывают влияния, или учитываются посредством других параметров

28 Факторы, не подверженные обрезке Иерархическое расстояние Значимость в дискурсе Синт. роль антецедента è Некоторые факторы, которые были неважны в количественной модели, оказались существенными

29 Выводы Нейросети эффективны в моделировании референциального выбора Набор входных факторов может быть урезан Веса факторов приписываются автоматически Данный опыт применения НС является тестовым, т.к. объем данных слишком мал для статистического моделирования

30 III. Дальнейшее развитие исследований Большой корпус Нейросетевое моделирование Построение статистической модели реф. выбора Ввести вероятностную шкалу: выход НС - вероятность появления местоимения Определение оптимального набора факторов, объясняющего референциальный выбор для данного корпуса

31 Характеристики корпуса Английский язык Корпус, размеченный по иерархической структуре дискурса RST-WSJ corpus Аннотирован по иер. структуре 385 газетных статей Около референциальных выражений

32 Пример иерархического графа

33 Схема разметки референциальных явлений Программа ММАХ2 Размечены все референциальные выражения Размечены их антецеденты Размечены важнейшие характеристики референтов, реф. выражений, антецедентов и контекста, которые могут быть факторами активации Пример – окно программы ММАХ2 Схема ММАХ2 была написана немецким компьютерным лингвистом Кристианом Чиаркосом

34

35 Текущие задачи 1.Проверка уже сделанной аннотации 2.Расширение аннотационной схемы 3.Извлечение данных из корпуса в базу данных 4.Построение статистической модели Для пунктов (1), (2) и (3) необходима программистская поддержка

36 Пожелания к программисту Script maintenance good knowledge of UNIX, Linux, or Cygwin (shell programming [bash], knowledge of most elementary command line tools, and make) good knowledge and practical experience with JAVA and XSL/T [saxon/xerces] and how to call them from the command line (no Eclipse, no XMLSpy) fair knowledge of English Maintenance of an online file exchange utility