Разработка инструмента для извлечения мнения о фильмах из русскоязычных сообщений сервиса Twitter Мерчи Александр Группа С-104 МИЭМ 13.05.2011.

Презентация:



Advertisements
Похожие презентации
Разработка экспертной системы для расчёта рентабельности ставок на спортивные матчи Павленко Артём Группа С-104.
Advertisements

Разработка автоматизированной системы сбора и представления в сети Интернет данных о билетах на театрально-зрелищные мероприятия Студент: Новиков Р.О.
Язык QBE Язык QBE -общая характеристика Табличный двумерный язык, основанный на реляционном исчислении. Декларативный язык. Язык четвертого поколения (4.
Выпускная работа по «Основам информационных технологий» Гуд Игорь Анатольевич Руководитель: доцент Стрикелев Дмитрий Александрович Руководитель: доцент.
Как создать и обустроить свой виртуальный рабочий офис!
Администрирование системы Галактика ERP Ольга Обмайкина преподаватель УЦ.
СУБД Microsoft Access 2003 Элементы языка SQL. Язык SQL SQL (Structured Query Language) – структурированный язык запросов Язык SQL применяется во многих.
Средства контроля за трафиком, предоставляемые ЦИТ г. Гатчины.
Алексей Басов 16 ноября 2006 «Поисковая оптимизация и продвижение сайтов в Интернете» Новые технологии в контекстной рекламе.
1 Лекция 6 Команды категории извлечения данных языка структурированных запросов SQL План лекции Выборка определенных столбцов таблицы Устранение избыточных.
Создание фирменного стиля и Интернет представительства ЦВеТ МИЭМ, Александр Всехвальнов, с-55.
Разработка автоматизированной базы данных по учету руководящих и педагогических кадров системы общего образования Кемеровской области Выполнил: Швачунов.
Проектирование устройства передачи угла поворота энкодера по радиоканалу для системы дистанционной фокусировки камеры Студент группы С-105: Полоник Александр.
Дипломный проект на тему: Электронный каталог «Методические разработки преподавателей Красногорского Государственного колледжа» Выполнил студент 48 группы.
Разработка системы поддержки радио эфира МИЭМ, Семёнов Сергей Тимощенко Василий С-55.
Рекомендации по работе со службой технической поддержки Шаромов Денис руководитель отдела техподдержки.
Язык SQL Операторы манипулирования данными. Операции манипулирования данными DELETE операция удаления записей INSERT операция добавления или ввода новых.
Николай Хиврин Генеральный директор ALTWeb Group Алгоритмы автоматизированного составления семантического ядра.
Бланк запроса. Создание списка специальностей Вид при конструирования запросов.
Разработка подсистемы удаленного доступа к информационной сети с инфраструктурой открытых ключей Дмитрий Краснов группа С
Транксрипт:

Разработка инструмента для извлечения мнения о фильмах из русскоязычных сообщений сервиса Twitter Мерчи Александр Группа С-104 МИЭМ

Постановка задачи Анализ существующих на рынке систем по opinion mining; Спроектировать и разработать приложение для определения мнения о каком-либо фильме; Внедрить разработанное приложения в Интернет для общего доступа пользователей.

Opinion Mining Определение Opinion Mining (анализ мнений) Актуальность Opinion Mining Примеры использования Opinion Mining

Анализ существующих решений

Разработка приложения для определения мнений

Общая схема работы приложения

Создание базы данных с фильмами Поиск источника данных Парсинг данных

Разработка приложения-паука для обновления базы сообщений из сервиса Twitter Что такое Twitter? Парсинг сообщений из Twittera Подготовка сообщений Фильтрация сообщений Анализ сообщений

Разработка анализатора сообщений Составление словаря эмоциональных слов Выбор инструмента для нормализации слов Алгоритм анализа текста

Составление словаря эмоциональных слов Ограничения сообщений Twittera Анализ рецензий Работа со словарем Ожегова

Выбор инструмента для нормализации текста Pymorphy Lemmatizer Mystem PHPMorphy

Нормализация слов

Анализ текста

Удаление дублирующихся записей Причины появления Удаление дублирующихся записей SELECT COUNT(*) AS dub, twitt FROM twitt GROUP BY twitt HAVING dub>1; DELETE FROM twitt WHERE twitt='$twitt' LIMIT ($dub-1);

Подсчет результатов Поиск записей по каждому фильму Подсчет количества положительных и отрицательных сообщений SELECT * FROM twitt WHERE id_movie = $films AND weight > 0; SELECT * FROM twitt WHERE id_movie = $films AND weight < 0;

Внедрение приложения для общего доступа в Интернет Выбор Хостинг-провайдера Установка скриптов в Crontab

Разработка интерфейса для online-доступа

Результаты выполнения поиска

Визуализация результатов

Рейтинг «ТОП-100»

Выводы В результате выполнения работы были: Проведен анализ существующих решений Разработано приложение для извлечения мнений о фильмах Приложение было внедрено в Интернет для всеобщего доступа

Перспективы развития Увеличение тем анализа сообщений Расширение мест поиска сообщений Улучшение алгоритма анализа сообщений Выделение различных качеств объектов при анализе сообщений

Спасибо за внимание Вопросы? Контакты: ICQ: