Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 9 лет назад пользователемВиталий Варакин
1 Бренд Аналитик Команда проекта: Александра Михайлова Ирина Орлова Дмитрий Батькович Александр Сенов БРЕНД АНАЛИТИК - ИННОВАЦИЯ НАСТОЯЩЕГО, ПАРАДИГМА БУДУЩЕГО. Куратор: Владимир Батыгин, ЯНДЕКС
2 2 О проекте Цель: создание аналитического сервиса экономического информационного пространства. Задачи: организация сбора, хранения, обработки и предоставления информации о компаниях. Мотивация: потребность со стороны финансового и маркетингового сообщества.
3 Конец 1-го семестра Сформирована и кристаллизована концепция проекта. 10 компаний, 10 источников информации. НЕ автоматизированный сбор информации : ) Исследованы CART, AdaBoost, RandomForest для распознавания тональности в Twitter. Конец 2-го семестра Сформирована база данных: 8 отраслей экономики, 52 компании, 134 источника информации. Создан сайт сервиса и организована его работа. Налажен постоянный сбор информации. Исследованы SVM и SentimentStrength для распознавания тональности в Twitter. 3
4 4 Технологическая реализация RSS Twitter w w w MongoDB RSS + Twitter MySQL Finam Lucene Кластеризация Делаем индексы Чистим от мусора Считаем упоминаемости Оцениваем тональность Backend Finam
5 5 Анализ данных: задача Исследовали распознавание тональности сообщений в Twitter. Data Set: сообщения, содержащие название бренда –или возможное обозначение бренда: google = gogle = гугл = … –выкинули мусор –назначили оценку тональности {-1, 0, 1} –получили 1064 наблюдения
6 6 Анализ данных: метод Составили словари: 1) Основа: разум, синонимы, статистика, :*) и =( 2) Применили Стемминг: хороший хорошие хорош хорошо В прошлом семестре оценили: CART, AdaBoost, RandomForest. В этом семестре исследовали: SVM (Weka), Sentiment Strength (Mike Thelwall,2011).
7 7 Оценка качества: метод
8 8 Алгоритм ЗадачаrecallprecisionF measure CART {1} vs {-1, 0}0 NaN {-1} vs {0, 1}0 NaN AdaBoost {1} vs {-1, 0}0 NaN {-1} vs {0, 1}0 NaN RandomForest {1} vs {-1, 0}0,1110,60,188 {-1} vs {1, 0}0 NaN SVM {1} vs {-1, 0}0,10,120,11 {-1} vs {1, 0}0,150,210,18 Sentiment Strength {1} vs {-1, 0}0,280,40,33 {-1} vs {1, 0}0,20,50,29 Оценка качества классификации
9 Структура целевых сообщений в Twitter 9
10 Еще сложности… Мало экономической контекста, хоть такого: «Ах ты ж мать моя женщина: Nokia завтра объявит об альянсе с Microsoft».. Скорее имеются в виду услуги компании и сложно-распознаваемая ирония «Яндекс.Карты, Яндекс.Деньги, Яндекс.Два Ствола» «Девушка в очереди сбербанка дождалась парня из армии» «Мою жизнь продукция Apple сделала хуже - очень утомительно завидовать владельцам айфонов и макбуков» 10
11 Идеи будущего развития Автоматическое распознавание тональности новостей. Исследование корреляции тональности с фондовыми индексами. Расширение алгоритмического инструментария. Изучение устойчивости подхода для разных источников и разных языков. Усовершенствование технологической составляющей проекта. 11
12 Спасибо за внимание. Александра Михайлова Ирина Орлова Дмитрий Батькович Александр Сенов БРЕНД АНАЛИТИК - ИННОВАЦИЯ НАСТОЯЩЕГО, ПАРАДИГМА БУДУЩЕГО.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.