Что обсуждают в Твиттере? Крибрум.События
Несколько утверждений про русский Твиттер (1) 4-5м сообщений в сутки 7.2м зарегистрированных аккаунтов к ретвитов ( к оригиналов) 1.1м уникальных ссылок в сутки 1.7м твитов с какой-то ссылкой в сутки 700к аккаунтов проявлены в сутки м сообщений (половина от всего) созданы «одной кнопкой» (share или ретвит) или ботами
Боты и спам 220к+ известных бот-аккаунтов В сутки проявляются 70к-150к ботов 18 твитов в сутки в среднем на бота м твитов в сутки – продукция ботов Это только часть ботов, есть специализированные не коммерческие бот-сети, реально бот-активность еще выше
Боты и спам (2) Категории спама Компьютеры и интернет 24% Образование 19% Кино и музыка 17% Знакомства 12% Игры 12% Гадания и гороскопы 3% Здоровье и дети 3.5% Недвижимость 1% Автомобили 0.5% Другое 8%
Детекция событий Постановка задачи Традиционно системы мониторинга социальных медиа отвечают на вопрос: Что (и как) говорят о заранее определенном объекте? Такая постановка не позволяет отследить неожиданные явления и события Крибрум.События призван ответить на обратный вопрос: О чем сейчас говорят, что вызывает интерес?
Детекция событий Методика Считаем фоновые значения частот терминов по большому массиву (200м твитов) На актуальном потоке сравниваем частоты терминов с фоновыми, находим существенные превышения над фоном Объединяем термины с существенным превышением в группы, по близости векторов суммы твитов с данным термином
Состав событий «Тело» события – это совокупность твитов и ссылок вовне У события есть начало (и первоисточник) и конец (и длительность) У события есть размер – число твитов, число авторов, число ссылок итд У авторов есть география (много) и соцдем (меньше)
Типы событий «СМИ» «Народ» «Активисты» «Вбросы» Спам
Примеры «СМИ»
Примеры «Народ»
Примеры «Активисты» (1)
Примеры «Активисты» (2)
Примеры «Вбросы» (1)
Примеры «Вбросы» (2)
Примеры Спам
Примеры Новый Год