–Lexical chains - textual cohesion (Halliday & Hasan) Cohesion: text makes sense as a whole Cohesion occurs where the interpretation of one item is dependent.

Презентация:



Advertisements
Похожие презентации
РАЗРАБОТКА И РЕАЛИЗАЦИЯ МЕТОДОВ И ИНСТРУМЕНТАРИЯ ДЛЯ СРАВНЕНИЯ И ОБЪЕДИНЕНИЯ ОНТОЛОГИЙ Студентка: Анна Жукова, 545 группа Научный руководитель: к. ф.-м.
Advertisements

КЛАССИФИКАЦИЯ ГРАММАТИК И ЯЗЫКОВ ( КЛАССИФИКАЦИЯ ХОМСКОГО ) Рейн Т. С.
Michael Marchenko. In mathematics, a sequence is an ordered list of objects (or events). Like a set, it contains members (also called elements, or terms),
Троицкий Д.И. Лингвистическое и программное обеспечение САПР 1 Классификация грамматик и языков Лекция 9 Кафедра «Автоматизированные станочные системы»
INTERNET The Internet is: a network of computers; an information resource; a communication system; a community of users; a collection of services.
XXXIX Неделя науки СПбГПУ XXXIX Неделя науки СПбГПУ 2010 Визуальное редактирование запросов к поисковой системе с использованием онтологии WordNet А.Н.
Явление многозначности в английском языке Авдеева Екатерина,10 А класс МБОУ СОШ 174 Научное общество учащихся.
Печать документов Борисов В.А. Красноармейский филиал ГОУ ВПО «Академия народного хозяйства при Правительстве РФ» Красноармейск 2009 г.
Физические модели баз данных Файловые структуры, используемые для хранения информации в базах данных.
слова не совсем обычные: и сходные, и различные Синонимы – слова одной части речи, различные по звучанию, но одинаковые по значению.
Endangered animals The Puma. One of the American animals which does not occupy huge area is the puma.
Алгоритмы сканирования и обхода Лекция 3. Алгоритм сканирования графа Input: Орграф (граф) G и вершина s. Output: Множество R вершин, достижимых из s,
Вопрос 1 Ответ 1 Правильный ответ Ответ 3 Ответ 4.
Слово Лексемы и словоформы. Проблема слова «слово» Что называется словом в естественном языке? Самые разные вещи: «В этом стихотворении ровно сто слов»
The Best Item in Chelyabinsk Dima Zolotarev Form 7A School#30.
Типы отношений в базе данных При работе с данными из нескольких таблиц устанавливаются связи между таблицами Связь между таблицами устанавливает отношения.
* Санкт-Петербург 2007 * Автоматическое выделение структур в тексте.
Выполнил: учитель английского языка Феденко Г. В. МООУ «Санаторная школа- интернат 2»
11 класс Синтаксис предложение простое сложное Сложно- сочинённое Сложно- подчинённое 1.Повествователь ные (+, -). 2.Вопросительны е. 3.Побудительные.
Глава 6. УПРАВЛЯЮЩИЕ СТРУКТУРЫ Оператор присваивания Простой и составной операторы Условный оператор Оператор множественного выбора Оператор цикла с предусловием.
Транксрипт:

–Lexical chains - textual cohesion (Halliday & Hasan) Cohesion: text makes sense as a whole Cohesion occurs where the interpretation of one item is dependent of that of another item in the text. It is this dependency that gives rise to cohesion. Lexical chaining

Textual coherence Союзы Референция Лексическая связанность Субституция (one; делать) Эллипсис В чем преимущество лексической связанности для автоматического анализа?

Lexical chaining 5 типов лексической связанности повтор синонимия общее частное часть целое коллокации ( и антонимы как подтип) статистически часто встречаются вместе СЛОВАРИ

WORDNET (Miller et al Fellbaum 1998) An online lexical database whose design is inspired by current psycholinguistic theories of human lexical memory. –4 гр. категории: сущ., глагол, прил., наречие –Главное отношение: СИНОНИМИЯ SYNSET

Wordnet noun relations Гипонимы Гиперонимы Холонимы Меронимы Антонимы

Генерация цепочки 1.К термину подбирается синсеты (neighbouri set) 2.Любой другой термин, который совпадает с одним из терминов синсета, становится членом лексической цепочки 3.Если в цепочке имеется более трех терминов, то ее индексируют 4.И так для всех терминов сообщения Greedy vs. non-greedy

Morris & Hirst (1991) Правила выбора правильной цепочки Chain salience (words should be added to the most recently updated chain). Thesaural relationship (wordnet:часть-целое) Transitivity Allowable word distance

8 Типы отношений (I) Очень сильные (extra strong) отношения повторение слов (mouse/mice) Сильные (strong) отношения два слова, если они имеют одинаковый номер синсета telephone/phone два синсета, если они связаны горизонтальной связью два синсета, если между ними существует связь наверх или вниз два слова, если одно из них является сложным словом, а другое – его частью (orange_tree, tree)

9 Типы отношений (II) Отношения средней силы (medium- strength relations) два синсета соединены в WordNet разрешенным путем длины x, 1x5 Правила: никакое направление не должно предшествовать связи вверх разрешено не более одного изменения направления (кроме тех случаев, когда горизонтальная связь использована для перехода от связи вверх к связи вниз)

10 В основе выделения трех типов отношений лежит презумпция того, что близость в значении прямо зависит от расстояния (в узлах) в таксономии Не все дуги одинаковой длины; правила – попытка сократить количество узлов, семантически не связанных между собой, но близких формально

11 Интуитивные основания правил Если контекст сужен, расширение его последующей связью наверх не имеет большого смысла Изменение направления – «большой шаг» в семантике (кроме (редкой) горизонтальной связи), т. о. отношения средней силы – либо генерализация, либо специализация

12 Необходимость правил

13 Поиск связи между целевым словом и словом одной из цепочек: очень сильное отношение > сильное отношение > отношение средней силы Отношения средней силы взвешиваются в зависимости от длины пути и количества изменений направления (нужно найти самое сильное отношение средней силы): (1)Link Strength = C – path length - k C – константа, k – кол-во изменений направления Работа алгоритма:

14 Ограничения на расстояние между целевым словом и последним словом цепочки: нет для очень сильных отношений (one sense per discource assumption) 7 предложений для сильных отношений 3 предложения для отношений средней силы Работа алгоритма:

15 Работа алгоритма: Greedy lexical chaining approach: при добавлении слова к цепочке учитывается только его левый контекст «Очередь» (queue): каждое слово предложения n добавляется к очереди; ищутся очень сильные отношения между этими словами и всеми созданными к этому моменту цепочками. Как только очень сильное отношение найдено, поиск прекращается, слово удаляется из очереди и добавляется к цепочке. Затем ищутся сильные отношения, затем отношения средней силы (которые взвешиваются по формуле (1)) между оставшимися словами из очереди и всеми лексическими цепочками; слова удаляются из очереди и добавляются к соответствующим цепочкам. Для слов, оставшихся в очереди, создаются новые цепочки.

16 Работа алгоритма: Chain salience: слова добавляются к цепочке, которая обновлялась последней.

17