Когнитивная модель времени и анализ ЕЯ текстов Найденова К.А., Гарина М.И.

Презентация:



Advertisements
Похожие презентации
Теория экономических информационных систем Семантические модели данных.
Advertisements

Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
Теория вычислительных процессов 4 курс, 8 семестр Преподаватель: Веретельникова Евгения Леонидовна 1.
Методология IDEF1X (IDEF1 Extended) – язык для семантического моделирования данных, основанных на концепции « сущность - связь ». Является расширением.
Лекция 6 Грамматическое значение и способы его выражения.
Оператор множественного выбора CASEОператор множественного выбора CASE.
Реляционная модель данных Определения Основные операции над отношениями (реляционная алгебра)
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Делимость или календарь на каждый день Презентацию подготовил Варсегов Георгий, ученик 6 А класса СОШ 89.
Определения Банк данных (БнД) это система специальным образом организованных дан­ных - баз данных, программных, технических, языковых, организационно-
СЕТЕВАЯ МОДЕЛЬ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ ЛЕКЦИЯ (С): Доц., к.т.н. Шкаберин В.А. Брянский государственный технический университет Кафедра «Компьютерные технологии.
Лекция 14 Анализ и отбор учебного материала, его структурирование и формализация ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО.
Кластеризация Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные) на группы (кластеры) по принципу схожести.
Язык и стиль научной речи. Лексический уровень важно передать один, и только один смысл; эмоциональная нагруженность слова - недостаток, мешающий пониманию.
Методология информационного моделирования IDEF1X.
Лингвистика или языкознание – наука о языке (от греч. «лингва» язык)
Моделирование как метод познания Моделирование это метод познания, состоящий в создании и исследовании моделей.
« Я мыслю, следовательно, следовательно, существую » Рене Декарт. Рене Декарт.
Стандарт IDEF1X Рассмотрим методологию IDEF1X. Методология IDEF1X представляет собой формализованный язык семантического (контекстного) моделирования данных,
Транксрипт:

Когнитивная модель времени и анализ ЕЯ текстов Найденова К.А., Гарина М.И.

Когнитивная модель времени Когнитивная модель времени включает: Единицы времени (год, месяц, весна, минута); Интервалы времени и их свойства: начало, конец, длительность, без начала (открытый в прошлом), без конца (открытый в будущем), точечный; Окрестность: ближайшее прошлое, ближайшее будущее (около полудня, вскоре после начала/конца, под вечер); Различные отношения между единицами и интервалами: совпадение, касание, предшествование, следование, пересечение, включение, удаленность в прошлое/ будущее время; Степень отношений: мера удаленности, мера пересечения; Отношения сравнения длительности интервалов: дольше, менее долго, короче; Неопределенные, размытые отношения: намного позже, когда-то, утро раннее

Основные когнитивные конструкции Событие (может быть, пустое) временной интервал; Временной интервал ::= (начало --- конец)/ единица времени/ совокупность единиц времени; временной момент есть частный случай интервала; Начало ::= дата/событие; Конец::= дата/событие; Интервал имеет Длительность; Интервалы времени привязаны к событиям. Но и сами временные интервалы могут быть событиями:«Сентябрь наступил», «Дни идут».

Схема основных когнитивных конструкций Методы Событи е Время события Имя единицы времени Интервал Длительность НачалоКонец Дата Событие Дата Имя единицы времени Имя единицы времени Интервал Время события Длительность Периодичность

Свойство когнитивной схемы Очевидно, эта схема рекурсивная, то есть событие ассоциируется с временным интервалом, а временной интервал может выражаться через события, например, «На рассвете, до первых залпов артиллерии», «задолго до первых лучей солнца».

Методы Правила вычисления Длительности: а) как разница между концом и началом с точными временными метками (даты); б) как промежуток между событиями: от до ; в) как совокупность единиц времени (900 дней, например). Правила выявления истинности различных отношений между временными интервалами: последовательности (что раньше, что позже, что будет, что уже прошло), одновременности, включения в один и тот же интервал времени, пересечения, касания и др.

Методы как мета-знания Методы это естественные правила анализа соотношений между временными единицами/интервалами; Методы включают как вычисления, так и импликативные утверждения обобщенного вида: «Если конец интервала ( ) начало интервала ( ), то ( ) раньше ( ), где есть отношение предшествования. «Начало РАНЬШЕ ЧЕМ Конец; Конец ПОЗЖЕ ЧЕМ Начало»;

Свойства событий События могут быть неопределенными (размытыми) во времени (намного позже, когда-то..) События могут протекать во времени быстро, медленно Периодические события могут быть частыми или редкими Таким образом, временные свойства событий могут быть как объективными, так и субъективными, оценочными, относительными

Что еще нужно учесть С одним временным интервалом может быть ассоциировано множество Событий; Событие может быть выражено как одним словом, так и предложением; Событие может быть не в том же самом предложении, что и временной интервал, с ним ассоциированный;

Что еще нужно учесть Действующий субъект (в том числе и временной момент, событие) может быть определен с помощью референции; Есть события по умолчанию привязанные к временным интервалам: рассвет, закат, выпускной бал, обед. ужин, завтрак, начало рабочего дня; часть из них зависит от культурных традиций;

Настройка когнитивной модели на ЕЯ Когнитивная модель не зависит от языка, но она должна настраиваться на различные языки. Языковый уровень устроен иерархически; в нем мы различаем следующие уровни: лексический, морфологический и синтаксический. Фактически строится транслятор (переводчик) когнитивной модели времени (её элементов и обобщенных утверждений (мета-знаний)) в языковые конструкции и наоборот. Транслятор можно построить как систему с обучением по примерам – предложениям, составленным специально для обучения.

Лексический уровень Частный случай интервала есть имя единицы времени Пример: TI = {век, столетие, год, месяц, сутки, утро, день, вечер, ночь, январь, февраль, март, апрель, май, июнь, сентябрь, октябрь, ноябрь, декабрь, минута, секунда, зима, лето…}

Отношения между лексическими единицами в ЕЯ Отношения классификации («is-a»), композиции («concsist-of»), часть-целое, цикличности, включения, последовательности: Год это (зима, весна, лето, осень); Цикличность; зима одного года следует за осенью предшествующего года; Последовательность: весна после (позже) зимы; «Часть-Целое»: минута часть часа; Отношение композиции: сутки состоят из ночи и дня» Длительность, вычисляемую через число составляющих единиц: минута = 60 секунд; декада = 10 дней

Пояснения к схеме Отношение классификации показано с помощью связей с треугольником а отношение композиции – стрелкой с ромбом. Если отношение композиции определено между интервалами верхнего уровня, то оно определено и между интервалами-потомками. (Например, Июнь состоит из Суток). Конкретную арность можно определить только для связей нижнего уровня (нельзя сказать из скольких суток состоит год вообще, месяц вообще, но можно сказать, из скольких суток состоит високосный год, месяц январь и т.д.)

Лексический уровень временных отношений Событийное время (Многомерность времени. Елкин, С. В.., Куликов В.В. и др.) 1 Событие2 Продолжительность события3 Долговременно(сть) Кратковременно(сть) Повторяемость событияПроцесс из нескольких разных событий Событийный ряд Многократное повторение одного и того же события Ежедневно, еженедельно Ежеквартально, ежемесячно, ежегодно ОднократноЕдиновременно, одноразово Предсобытийное время, (в системе отсчета неко- торого события) Прежде, заблаговременно, загодя, заранее, досрочно, предварительно, преждевременно, преддверие, раньше чем, задолго до, пока не, незадолго, в последнее время, до тех пор пока, накануне Послесобытийное времяПозднее, после, позже, потом, затем, спустя, впредь, отныне, после того как, тотчас после, далее, сразу после, когда Событийное время – привязанное к конкретному событию Сроду (от рождения), изначально, в то время как

Неопределенное время Утвердительное: когда-либо, когда- нибудь, кое-когда, со временем, тогда, когда-то, некогда, однажды; Отрицательное: Никогда

Временные предлоги Приблизительную классификацию русских временных предлогов дал Крейдлин Г.Е. Время сквозь призму временных предлогов // Логический анализ языка: Язык и время. М с.

ОтношениеПред- лог ПримерВременной маркер, событие Одновременность Протяженность Длительность ЗаЗа всю поездку он ничего не сказал Интервал времени привязан к событию (поездка) Предшествование Приме -рно до Мы ждали примерно до полуночи Временной маркер: полночь; Время: неопределенный полуинтервал,

Синтаксический уровень ОтношениеСтруктураСинтаксическа я схема Роль в предложении СледованиеТотчас после /, Наречие с предлогом «после» /, Обстоятельство времени. Пример: Тотчас после свадьбы и напутствия родителей. ВключениеВключая Деепричастие Обстоятельство времени. Пример: Включая 2010 год.

Работа с текстом Система работы с текстом состоит из Когнитивной модели времени и событий, которая отражает прикладную область и цели обработки текстов; Обучаемого транслятора, который настраивается на конкретный ЕЯ; Блока правдоподобного вывода следствий из установленных временных отношений между событиями в тексте на основе мета-знаний когнитивной модели; Синтаксического разборщика для конкретного языка; Управляющего блока или операционной подсистемы обучаемого транслятора

Когнитивная Модель времени Когнитивная Модель события Текст Правдоподобный вывод следствий Обучаемый транслятор, настраиваемый на ЕЯ Синтаксический разборщик База выделенных событий и отношений между ними Управление

Анализ текста Текст взаимодействует с транслятором («переводчиком») и разборщиком; В результате выделяются временные моменты, интервалы, события и строятся суждения о временных соотношениях между событиями, ассоциированными с этими временными моментами и/или интервалами.

Работа транслятора Транслятор сначала ищет в тексте опорные (ключевые) слова (временные маркеры), которые связаны с выражением времени в языке. Затем Транслятор, используя лексические и синтаксические модели, пытается определить события, ассоциированные с выделенными временными метками. Если необходимо, то следует обращение к синтаксическому разборщику.

Формирование Базы Событий Гипотезы о событиях и временных опорных моментах выстраиваются как список возможных фактов, извлеченных из текста. Заполняется экземплярами событий с их временными характеристиками База Выделенных Событий.

Работа транслятора Транслятор может многократно обращаться то к тексту, то к когнитивной модели, то к разборщику, чтобы направленно искать требуемые (по правилам когнитивной модели) языковые конструкции.

Работа блока правдоподобных рассуждений Блок правдоподобных рассуждений выводит все следствия из обнаруженных фактов (событий, их свойств, отношений между ними).

Пример выделения событий и времени событий из текста Далее рассмотрим Пример анализа текста, взятый из повести В. Некрасова «Окопы Сталинграда». Этот пример показывает, что же мы будем иметь на выходе при событийно-временном анализе текстов при использовании моделей времени и событий

Предложение1 предложения СобытиеВременной интервал Выводимые данные 1Я не припомню Осени (осень) Состоит из «сентябрь, октябрь, ноябрь»

Предложение 2 предложения СобытиеВременной интервал Выводимые данные 2 Сентябрь прошел Сентябрь Предшествуе т «октябрю»; следовательн о «наступил октябрь» Временной интервал «сентябрь» является событием. Сказуемое выражается глаголом «прошел» прошедшего времени, семантика которого говорит о том, что интервал времени окончен, ушел в прошлое. Из когнитивной модели времени выводится, что за сентябрем идет октябрь, следующий месяц осени.

Предложение 3 предложения СобытиеВременной интервал Выводимые данные 3 Событие 1: Рыба плещется в Волге; Событие 2: Круги расходятся по поверхности воды По утрам Каждый день утром; октябрь; Осень;

Предложение 6 предложения СобытиеВременной интервал Выводимые данные 6 Он нежен = Левый берег нежен На рассвете; До первых залпов артиллерии На рассвете = ранним утром; До (раньше) первых залпов артиллерии; Событие = Первые залпы артиллерии 6 Событие: Первые залпы артиллерии На рассветеРанним утром. Октябрь. Осень

Предложение 8 предложения СобытиеВременной интервал Выводимые данные 8 Событие: Х держится; Х = туман Некоторое время Некоторое время. Ранним утром. В этом предложении нет подлежащего и поэтому нет действующего субъекта. Его опять устанавливаем с помощью референции (анализ предыдущего предложения).

Предложение 9 предложения СобытиеВременной интервал Выводимые данные 9 Ударяет дальнобойка Задолго до первых лучей солнца 9 Событие: Первые лучи солнца На рассветеУтром. Ранним утром. Октябрь. Осень В предложении 9 нет явного указания момента времени. Но обстоятельство времени «до первых лучей солнца» связано ассоциативно с рассветом, а рассвет с утром. Поэтому мы выделяем событие «первые лучи солнца» и его привязку к раннему утру.

Предложения 11 и 12 предложения СобытиеВременной интервал Выводимые данные 11 Начинается день ДеньНаступил после утра; Начало дня. 12 Появляется рама В семьСемь часов утра. Начало дня.

Предложение 19 предложения СобытиеВременной интервал Выводимые данные 19 Она определит Весь день 19 Она = первая десятка Весь деньВесь день = с утра до вечера Предложение 19 «Она определит весь день» требует возврата к предыдущему предложению, чтобы через референцию определить слово «она». Это потребует полного разбора предложения 18, которое содержит события «мы вылезаем из землянок и следим за первой десяткой».

Предложение 20 предложения СобытиеВременной интервал Выводимые данные 20 Событие 1: Будут хоронить убитых Событие 2: Ремонтировать поврежденные пулеметы и пушки Событие 3: Копать новые щели и землянки Всю ночьПосле дня; С вечера до утра; От заката до рассвета

Пояснение к предложению 20 В предложении 20 мы выделяем фрагмент, связанный с ключевым словом «всю ночь». Подлежащее и сказуемое определяют событие «Мы узнаем». Однако временной интервал относится к дополнению: «Мы узнаем, на каком участке всю ночь будут хоронить убитых, ремонтировать поврежденные пулеметы и пушки, копать новые щели и землянки».

Некоторые замечания Понятно, что происходит диалог между когнитивной моделью времени, транслятором и разборщиком. Понятно, что от когнитивной модели времени, её полноты и точности зависит полнота и точность выводимого знания. Мы здесь опирались на метки времени. Но можно ключевыми сделать события.

От текста – к семантико- лексическим моделям понятий Наша цель состоит в том, чтобы Для каждого понятия (слова) добыть из теста его смысловую и лексическую структуру, то есть выяснить, с какими словами это понятие (слово) ассоциируется в тексте, каковы его с лексико- синтаксические и смысловые связи с этими словами. Смысловые связи слов обусловлены связями явлений и предметов материальной действительности. Грамматические связи обусловлены типом текста, грамматикой языка и языковыми традициями.

Пример финансового отчета фирмы Начнем с семантической модели фирмы и её деятельности. Фирма имеет имя, год основания, директора, основателя, контактные телефоны и факсы, основной адрес, синонимы (например, «мы» в данных нам текстах), филиалы со своими атрибутами, и, самое главное, ПРОДУКТЫ, которые она выпускает, ДОХОД (зависит от числа её покупателей. Так, вступает в дело РЫНОК, БИЗНЕС и МЕНЕДЖМЕНТ. Действия фирмы направлены на учет потребностей покупателей, усовершенствование продуктов, выпуск новых продуктов. СОБЫТИЯ сводятся к выпуску ПРОДУКТОВ, увеличению и снижению выпуска, усовершенствованию продуктов, к увеличению или снижению ДОХОДА, к выяснению причин изменения дохода, интереса покупателей к продуктам.

Семантическая Схема ПРОДУКТА ПродуктКласс продукта в классификации продуктов Имя собственное Атрибуты: Версия, Год выпуска, Назначение Потребители, покупатели Семейство продукта Размер выпуска Размер продаж Действия, совершаемые над продуктами (адаптация к потребителям, усовершенствования, придание новых свойств, увеличение/снижение выпуска, и т.п.

Схема ФИНАНСОВОГО ОТЧЕТА Финансовый отчет Принадлежность к фирме За какое время (период времени) Конкретность – неконкретность (тот, этот, тот самый…) Принадлежность к фирме, время и конкретность – это либо тоже понятия с атрибутами или терминальные символы – слова языка. Например, Принадлежность к фирме: our fiscal, Adobe fiscal; Конкретность: the fiscal, the same fiscal; Период времени: In our first quarter of fiscal; In fiscal 2007;

Выбор подмножеств предложений Выделим предложения, в которых речь идет о действиях фирмы и о её доходах. Предложения, в которых есть слово «мы» (we - фирма) и речь идет о действиях этого «мы». Действия или сами являются событиями, либо порождают события, либо и то и другое вместе. Предложения, в которых встречается слово отчет (fiscal). Предложения, в которых речь идет о доходе фирмы (revenue) и связанных с ним событиях.

Извлечение лексической структуры понятия из текста В наиболее простом случае мы можем сразу погружать понятийную конструкцию в язык, то есть в терминальные символы. Но слово может входить в разные синтаксические конструкции: в состав предложной группы, в состав именной группы и т.п. Например, Our first quarter of fiscal Our fiscal year Для определения лексической структуры слова по его смысловой структуре (погружение семантической структуры в текстовые структуры) введем понятия основной (лексической) конструкции понятия (слова) и ближайшего контекста слова, Начнем с понятия fiscal

Пример основной конструкции Основная конструкция понятия отчет :: = (fiscal/ fiscal year/ fiscal year (год )/ (our ) / (the ) / (the past ) / (the next ) / (the past ) / (the next ) / (the same );

Пример ближайшего контекста Ближайший контекст понятия fiscal ::= In, / of / during / in the first quarter of, / in the second quarter of, / in the third quarter of, / in the fourth quarter of, / during the first quarter of, / during the second quarter of, / during the third quarter of, / during the fourth quarter of, / in the same quarter of, /

Конструкция Бэкуса Основные конструкции и ближайший контекст описываются с помощью рекурсивных нотаций Бэкуса. Они управляют анализом текста. Разбор начинается с терминальных символов – слов. Когда встречается начало контекста, то можно попробовать выделить и весь контекст, идя от слова к слову последовательно. Но можно и найти основную конструкцию слова, а потом «раскручивать» его ближайший контекст. Построение формул Бекуса можно автоматизировать, то есть построить процесс обучения схемы разбора на основе показа выделенных в тексте примеров основных конструкций и ближайших контекстов в определенном порядке.

Кластеризация текстов Предположим, что мы выделили только некоторое множество предложений и по нему построили основную конструкцию и ближайший контекст для слова fiscal. После этого можно отобрать все предложения, которые им соответствуют. Останется часть текста, по которой нужно расширить ближайший контекст или модифицировать основную конструкцию.

Что надо сделать 1 1. Прежде всего, построить как можно более полную когнитивную модель времени. Сначала выписать все абстрактные элементы модели и связи (логические) между ними. Разработать модели необходимых вычислений (методов); затем погрузить эту модель, например, в русский язык. Это повлечет построение конкретных логических утверждений (экземпляров утверждений) типа «если-то» о временных моментах с учетом их языкового выражения. Эти логические утверждения составят базу знаний о времени для русского языка, полученную на основе когнитивной модели времени. Модель правдоподобного вывода на основе логических утверждений можно считать известной.

Что надо сделать 2 1. Построить когнитивную модель События. Сначала через такие когнитивные компоненты как Факт, Процесс, Действие, Субъект, Место События, Время События, Связь Между Событиями (например, причинно- следственная). Затем уточнить эту модель через знания конкретной области приложения модели (бизнес, финансы). Отобразить нюансы Событий области приложения в когнитивной модели. Также должны быть выписаны логические утверждения, на основе которых возможны правдоподобные выводы о Событиях.

Что надо сделать 3 Только после выполнения работы по когнитивным моделям можно обращаться к созданию Обучаемого Транслятора. Похоже, что нам будут нужны схемы определения членов предложения, прежде всего (подлежащее, сказуемое, обстоятельство, дополнение). Только после выполнения работы по когнитивным моделям можно обращаться к созданию Обучаемого Транслятора. Похоже, что нам будут нужны схемы определения членов предложения, прежде всего (подлежащее, сказуемое, обстоятельство, дополнение). Нужно уметь различать предложения односоставные, двусоставные, полные, неполные, простые и сложные. Сложные предложения разваливать на простые. Главное в нашей модели то, что анализ предложений начинается и управляется с помощью когнитивной модели. На уровне когнитивной модели делаются выводы и формируются конкретные запросы к разборщику Нужно уметь различать предложения односоставные, двусоставные, полные, неполные, простые и сложные. Сложные предложения разваливать на простые. Главное в нашей модели то, что анализ предложений начинается и управляется с помощью когнитивной модели. На уровне когнитивной модели делаются выводы и формируются конкретные запросы к разборщику

Спасибо за внимание