Метод определения эмоций в текстах на русском языке Анна Пазельская, Алексей Соловьёв www.i-teco.ru.

Презентация:



Advertisements
Похожие презентации
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Advertisements

Лингвистическая модель для компьютерного анализа тональности публикаций СМИ Ермаков А.Е., Киселев С.Л. ООО Гарант-Парк-Интернет и партнеры (
Лекция 6 Грамматическое значение и способы его выражения.
Научный стиль. Определение научного стиля.. Что такое научный стиль? Научный стиль – разновидность книжных стилей литературного языка. Он применяется.
Грамматические категории. Универсальная схема анализа.
ЕГЭ по русскому языку в 2015 году в новом формате Часть 1: особенности структуры специфика подготовки.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
ВВОДНЫЕ КОНСТРУКЦИИ В ХУДОЖЕСТВЕННОМ ТЕКСТЕ (НА ПРИМЕРЕ ПРОЗЫ А.С. ПУШКИНА ) Автор: Миронова Ольга, ученица 9 «А» класса ГБОУ СОШ 3 г. Новокуйбышевска.
Анализ тональности сообщений Лидия Михайловна Пивоварова Системы понимания текста.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Научный стиль. Сфера употребления Научные доклады и лекции, выступления на научных конференциях и совещаниях являются образцами научного стиля речи. Также.
Научный стиль
ИТОГИ РЕПЕТИЦИОННОГО ЭКЗАМЕНА по русскому языку в ГО Красноуфимск 2011 г.
Научный стиль. Сфера употребления Научные доклады и лекции, выступления на научных конференциях и совещаниях являются образцами научного стиля речи. Также.
Блинов Андрей Иосифович. В связи с необходимостью дифференциации проверки содержания в рамках государственной итоговой аттестации по образовательным программам.
Имя существительное Самостоятельная часть речи, которая обозначает предмет и отвечает на вопросы кто? что? Бывают собственными или нарицательными, одушевленными.
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
«Процедура системного анализа – декомпозиция». 1. Модели систем как основания декомпозиции. Модели систем как основания декомпозиции. 2. Алгоритмизация.
Логопедическая работа по коррекции синтаксической стороны речи детей с ОНР Подготовилаучитель-логопед МБОУ 168 г.о. Самара Кокарева Л.А.
Коллокации и конструкции в исследовании структуры текста Лидия Пивоварова Елена Ягунова
Транксрипт:

Метод определения эмоций в текстах на русском языке Анна Пазельская, Алексей Соловьёв

2 Характеристики системы и план доклада Характеристики системы: 1.практическая реализация системы для определения тональности; 2.тексты СМИ на русском языке; 3.обработка грамматически правильных текстов; 4.словари лексической тональности; 5.набор комбинаторных правил объединения отдельных слов и словосочетаний; 6.использование предикационных отношений в пропозиции. План доклада: 1.Термины и понятия тональности. 2.Описание работы системы. 3.Оценка результата работы модуля определения тональности.

3 Термины и понятия: тональность Тональность (сентимент) текста – эмоциональная оценка, выраженная в тексте. Эмоциональная оценка: позитив vs. негатив (хорошо-плохо). Пример негативного предложения: (1) Причиной аварии Ту-154 стал отказ двигателей. Пример позитивного предложения: (2) Пилоты смогли посадить машину. + сила тональности – оценка яркости эмоциональной составляющей слова или высказывания (например, по такой шкале: «сильный негатив, негатив, нейтрально, позитив, сильный позитив»). Пример сильного негатива: (3) Состояние здоровья артиста сильно ухудшилось.

4 Определение лексической тональности Лексическая тональность – эмоциональная составляющая, выраженная на уровне лексемы или коммуникативного фрагмента. Тональность текста в целом определяется лексической тональностью составляющих его единиц и правилами их сочетания. Эмоциональная оценка в тексте выражается по отношению к объекту тональности. Может быть задан заранее или определяться в предложениях как любое имя собственное или даже нарицательное: название компании, название продукта компании, имя или фамилия, географическое название и пр. Субъект тональности – носитель выраженной в тексте эмоциональной оценки. В случае цитирования, прямой или косвенной речи совпадает с автором высказывания, иначе – с автором текста. Термины и понятия: лексическая тональность, субъект и объект

5 Определение лексической тональности Тональность определяется трёмя компонентами: Субъект тональности Собственно тональная оценка (позитив / нейтрально / негатив, плюс сила тональности) Объект тональности Например, в (1) субъект тональности – автор текста, объект тональности (определён автоматически) – Ту-154, выражена негативная оценка. (1) Причиной аварии Ту-154 стал отказ двигателей. Термины и понятия: три компонента тональности

6 Модель определения тональности Описание системы: этапы работы Текст: Альянс не собирается вмешиваться в ливийский конфликт. Этап 1: разметка текста альянс не собираться вмешиваться в ливийский конфликт. Морфоанализатор + тональные словари Этап 2: объединение в цепочки {альянс} {не собираться вмешиваться} {ливийский конфликт}. Синтанализатор + набор правил 1 Результат: {Альянс не собирается вмешиваться в ливийский конфликт.} Этап 3: сентимент объекта тональности {альянс} не собираться вмешиваться ливийский конфликт. Выделение объекта тональности + набор правил 2

7 Модель определения тональности Описание системы: компоненты Компоненты системы: словари лексической тональности; правила объединения цепочек; правила определения сентимента объекта тональности в предложении; (лингвистический модуль: морфология, синтаксический анализ, определение роли сущности в предложении и её семантического типа).

8 Описание системы: словари Тональные словари (составлялись экспертно): прилагательные (позитивные, негативные и усилительные), наречия (позитивные, негативные и усилительные), существительные (позитивные, негативные, потенциально позитивные и потенциально негативные, отглагольные негативные и отглагольные позитивные), глаголы (см. ниже), глагольные коллокации (позитивные и негативные), неглагольные коллокации (позитивные, негативные и усилительные).

9 Описание системы: глагольные словари Любое упоминание объекта в предложении характеризуется его окружением и его ролью. Отсюда 8 тональных классов глаголов: 1 и 2 класс негативные и позитивные глаголы, определяющие тональность объекта в зависимости от окружения и независимо от роли (негативные уносить, освободить от; позитивные защищать, болеть за); 3 и 4 класс негативные и позитивные глаголы, определяющие тональность объекта независимо от окружения, но в зависимости от его роли (сдаться и проиграть – субъект негативный, объект позитивный; обуздать и повергнуть – субъект позитивный, объект негативный); 5 и 6 класс негативные и позитивные глаголы, определяющие тональность объекта в зависимости от окружения и роли («возвратные»: негативные жаловаться, испугаться; позитивные окупаться, согреться); 7 и 8 класс чисто негативные / позитивные глаголы, определяющие тональность объекта вне зависимости от его роли и окружения (позитивные расследовать и улучшать, негативные грабить и злоупотреблять); + 9 класс глаголы, приравнивающие тональность объекта и субъекта (т.н. связочные: являться, олицетворять, относиться).

10 Модель определения тональности Описание системы: правила объединения цепочек Последовательность объединения Сложные предложения разбиваются на простые, некоторые типы придаточных предложений включаются в родительское, причастные обороты присоединяются к определяемому слову, деепричастные к субъекту родительского предложения. Придаточные предложения определительного типа с разрешенной анафорией соотносятся с определяемым словом. Предложение приводится к одному из типов синтаксической структуры из субъекта, предиката и объекта, где каждый член структуры в общем случае представлен цепочкой словоформ с определенной тональностью.

11 Описание системы: правила определения сентимента объекта Последовательность определения сентимента объекта тональности Выделяется объект тональности (может быть задан или выбирается автоматически). Объекту тональности приписывается сентимент на основании типа глагола, а также роли объекта тональности и его позиции в предложении. Пример: Милиционер подорвался на бомбе. Subj, Inq, nPPosvNegPnNeg= nNeg Милиционер изъялбомбу. Subj, Inq, nPPosvNegnNeg= nPos Сентимент и сила сентимента объекта тональности подсчитываются по предложению и по всему тексту.

12 Оценка результата работы Тестирование системы: тестовый модуль в сети ( отслеживание логов; периодические субъективные оценки небольших текстовых подборок экспертом: один раз в неделю, первые 5-7 новостных текстов с rbc.ru за понедельник или вторник, в среднем по 70 предложений в неделю, 1121 предложение с января по начало мая 2011 г.

13 Оценка результата работы: периодическое тестирование предложениеОК (A) пропуск (B) знак (C) лишнее (D) 42В результате взрыва на АЭС "Фукусима-1 " поврежден реактор. 1 43На четвертом реакторе АЭС "Фукусима-1 " в 11: 53 по местному времени( 05: 53 мск) произошел взрыв водорода, передают японские СМИ. 1 44В 11: 14 по местному времени( 05: 00 мск) в зоне четвертого реактора начался пожар, сообщили в компании-операторе станции Tokyo Electric Power( TEPCO ). 1 тональных предикаций в тексте: A + B + C предикаций, определённых системой как тональные: A + C + D полнота: A / (A + B + C), точность: A / (A + C + D)

14 Оценка результата работы: изменение качества Изменение качества тональной разметки с января по март 2011 г. Текущее качество тональной разметки – около 83% полноты, 90% точности

15 Оценка результата работы: основные причины ошибок При определении тональности возникают три класса ошибок: ошибки работы модуля морфологической и синтаксической разметки текста (около 5-7%); ошибки правил комбинаторики (не более 3%); ошибки тональных словарей, вызванные их неполнотой и «тональной» омонимией (не более 5%). Кроме того: ограниченность используемого эмотивного пространства; недостаточная исследованность вопросов размерности и формализации спектра человеческих эмоций.