AlephOne Positive – Negative Category Analysis CEO Russia Гиргидов Рубен Автоматизированные методы определения эмоций и отношения потребителя к продукту.

Презентация:



Advertisements
Похожие презентации
Компьютерная лингвистика Отдел мультиагентных систем ИИПРУ КБНЦ РАН.
Advertisements

Презентация «Применение программных средств для разработки, актуализации стандартов качества банковской деятельности и проведения самооценки» Докладчик:
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Модели представления знаний Формальные логические модели.
Устойчивость систем нелинейных дифференциальных уравнений Выполнил студент ГИП-104 Шинкарёв Г.Г. Научный руководитель: Ибрагимов Т. М.
Дипломная работа на тему:Нечеткие алгоритмы управления бесколлекторным двигателем постоянного тока Работу выполнил: Короткий Е.В. Научный руководитель:
Федеральное государственное бюджетное образовательное учреждение высшего образования «Омский государственный технический университет» Кафедра «Прикладная.
Перейти на первую страницу Концепция создания многомерного электронного учебника Волжский политехнический институт (филиал) ВолгГТУ.
Алгоритм 1 ПОНЯТИЕ АЛГОРИТМА ИСПОЛНИТЕЛИ АЛГОРИТМА Урок 1 2.
Определение оптимальной величины товарных запасов Основа разработки: 1С:Предприятие 8.1., за основу взято решение 1С:Управление производственным предприятием.
ИНФОРМАЦИОННАЯ ЧУВСТВИТЕЛЬНОСТЬ КОМПЬЮТЕРНЫХ АЛГОРИТМОВ И ЕЁ КОЛИЧЕСТВЕННЫЕ МЕРЫ д.т.н., профессор М.В. Ульянов Кафедра «Управление разработкой программного.
Привлечение продающего поискового трафика в интернет- магазины На примере трафикового SEO.
Алгоритм и его свойства. Алгоритм Алгоритм – это описанная на некотором языке, точная конечная система правил, определяющая содержание и порядок действий.
Александров А.Г ИТО Методы теории планирования экспериментов 2. Стратегическое планирование машинных экспериментов с моделями систем 3. Тактическое.
Понятие и представление информации. Языки и кодирование. yagod-sch.ucoz.ru (все уроки) Составил учитель ИКТ Фоломкин А.И.
Лекция 10: коллективы решающих правил Для рационального использования особенностей различных алгоритмов при решении задач распознавания возможно объединить.
Обнаружение разладки временных рядов Ковалевский Артём Павлович кафедра высшей математики 18 марта 2011.
Коллокации и конструкции в исследовании структуры текста Лидия Пивоварова Елена Ягунова
Транксрипт:

AlephOne Positive – Negative Category Analysis CEO Russia Гиргидов Рубен Автоматизированные методы определения эмоций и отношения потребителя к продукту.

Задача. Основа работы системы это категоризация текстов на базе различных критериев. Базовый алгоритм предполагает произвольное количество категорий. Критерии и их веса определяются как нечеткие логические конструкции и выводы. При анализе текстов использовать не только «лингвистические» критерии, но и сопутствующую информацию Алгоритм предполагает обучение с минимальным участием человека

Категории и начальные требования Адаптация алгоритма категоризации Алгоритм обучаемый с учителем 2 Категории: Positive Negative Тренировочный корпус текстов ~ 50% заведомо позитивных сообщений и 50% отрицательных: 100 сообщений с сайта Buy.com форум телефонов 100 сообщений с сайта Amazon форум бытовой техники Словарь термов должен выделяться автоматически

Шаги обучения системы 1 Генерация словаря термов Генерация словаря на базе стандартных словарей английского языка Генерация словаря на базе Wiki Генерация словаря на основе базы сообщений из корпуса Генерация правил разбора сообщения Определение важнейших параметров сообщения для каждого форума: Частотные Текстовые Мета информационные

Шаги обучения системы 2 Частотные критерии Текстовые критерии Мета информационные критерии Частота появления терма в тексте сообщения Принадлежность терма к названию форума сообщения Дата сообщения Совместность появления различных термов. Принадлежность терма к теме сообщении Количество сообщений в ветке Частота терма в целом по форуму Принадлежность терма к тексту сообщения Форматирование текста ………

Шаги обучения системы 3 Составление функционала принадлежности к категории Нечеткие логические конструкции Весовые коэффициенты Подстановка корпуса положительных и отрицательных сообщений для определения весовых коэффициентов 100 сообщений с сайта Buy.com форум телефонов 100 сообщений с сайта Amazon форум бытовой техники и электроники

BlackBerry Storm

Android G1

iPhone3G

Результаты исследования 1 Словарь термов Сгенерированный словарь практически не повлиял на точность отнесения того или иного сообщения к категории, но повлиял на уверенность отнесения отдельного сообщения к категории (чем обширней словарь, тем хуже результат) Худший результат у формального словаря английского языка (результаты не валидны) Вывод: метод определения термов, использованный в нашей компании в целом оказался эффективен для английского языка

Результаты исследования 2 Словарь Stopword отклонение составило не более 5- 10% Google stopwords средний результат Wordnet stopwords худший результат Созданный нами лучший результат Вывод: вероятно сказалась привязка фильтра к «форумному сленгу». У Google средний результат говорит, что они вынуждено идут на компромиссы, т.к. имеют дело с текстами всех тематик одновременно. У Wordnet худший результат, т.к. они имеют дело с текстами больших объемов и достаточно чистыми.

Результаты исследования 3 Тематика обучающего корпуса текстов практически не имеет значения. Ее можно определить как техническая. Машины, Телефоны Бытовая техника Электроника Необходимо соблюдать баланс между положительными и отрицательными сообщениями (не более 20%) Вывод: Точность определения составила 75%±10% вне зависимости от обучающей выборки.

Результаты исследования 4 Наибольшую сложность представляла величина уверенности отнесения сообщения негативным или позитивным текстам. Увеличение Длины сообщения только ухудшало ситуацию. Есть некоторые темы, для которых не существует позитивных сообщений. К ним относятся: Политика Бюрократические процедуры Алгоритм оказался достаточно устойчив к сообщениям с условиями (например: «вроде бы не плох») В целом использование методов категоризации текстов применительно к эмоциональным категориям применимо, но осложняется, требованием единственности эмоции на текст.

Вывод Использование методов категоризации текстов, применительно к эмоциональным категориям работает, но осложняется, требованием единственности эмоции на текст.

Текущее состояние В настоящее время исследования приостановлены и разработка продукта заморожена, в связи с отсутствием коммерческого спроса Вопросы

Конец Автоматизированные методы определения эмоций и отношения потребителя к продукту. Рубен Гиргидов