Изучение характеристик сообществ русскоязычной блогосферы А.В. Сычев, И.А.Гадебский sav@cs.vsu.ru.

Презентация:



Advertisements
Похожие презентации
Матрица вероятность\воздействие* Вероятность (Р) Мера риска = вероятность*воздействие (P*I)
Advertisements

Сравнительное изучение атрибутов профилей сообществ LiveJournal в 2010 и 2011 годах Сычев А.В. Воронежский государственный университет. XIII Всероссийская.
Статистика – дизайн информации. У 50 работников городского предприятия попросили оценить время, которое они в среднем тратят на проезд от дома до работы.
Функции денег Средство накопления Мера стоимости Средство обращения Средство платежа.
Жил – был веселый карандаш. Стало ему скучно жить и решил он освоить компьютер, чтобы создавать рисунки с помощью программы Qbasic.
Соотношение импортного и российского вина на российском винном рынке (без учета импортных вермутов) в 2005 – 2010 гг. (млн дал)
Эксперимент по автоматической оценке качества обзорного реферирования по метрике ROUGE-RUS © С.Д. Тарасов.
ИД «Первое сентября». Журнал «Физика» 2/ Роза ветров 9 ИД «Первое сентября». Журнал «Физика» 2/2014.
Красноярск Владивосток Вологда Спутник TERRA, 1000 м день 1. 04:30-05: :00-07:00 ночь 1. 15:30-16: :00-18:00 день 1. 04:30-05: :00-07:00.
Математическое соревнование для 8 классов КРОКОДИЛ.
ПРИЧИНЫ ПРОСТРАНСТВЕННО-ВРЕМЕННОЙ ИЗМЕНЧИВОСТИ БИОСФЕРЫ Биологическая продуктивность экосистем суши (NPP) гр/м 2 в год.
Автоматизированная классификация изменений программного кода Князев Е.Г. Старший разработчик ЗАО «Транзас Технологии»; Аспирант СПбГУ ИТМО для повышения.
Дискретные случайные величины Лекция 14. План лекции Дискретные случайные величины. Закон распределения дискретной случайной величины. Функция распределения.
Л ЕКЦИЯ 2 В АРИАЦИЯ И КОВАРИАЦИЯ Курс лекций проф. А. А. Алексеева по психометрике Sir Francis Galton 16 February 1822 – 17 January 1911.
214 от от от
Какое число пропущено? Тест по математике в 5 классе по теме: «Нумерация в пределах 1000» МКС(К)ОУ «Краснинская школа интернат VIII вида», Ленинск – Кузнецкий.
Исследование избранных двойных и кратных астероидов из группы АСЗ и главного пояса И.А. Верещагина, ГАО РАН.
Правила составления документов Лекция 4. Основные реквизиты документов 01 – Государственный герб РФ 02 – герб субъекта РФ 03 – эмблема организации или.
Предварительные итоги реализации территориальных программ обязательного медицинского страхования и анализ применяемых в системе обязательного медицинского.
Статистика – дизайн информации. Статистические методы обработки информации 1. Данные измерений упорядочивают и группируют 2. Составляют таблицы распределения.
Транксрипт:

Изучение характеристик сообществ русскоязычной блогосферы А.В. Сычев, И.А.Гадебский

Цель исследования анализ структуры и связи между атрибутами профилей сообществ в наиболее популярных в России блог- хостингах LiveJournal и LiveInternet поиск эффективных методик обработки данных из профилей сообществ, позволяющих получить дополнительную информацию о сообществах и их интересах

Исходные данные Реестр русскоязычных сообществ «Живого журнала» Реестр русскоязычных сообществ «Живого журнала» Топ сообществ LiveInternetТоп сообществ LiveInternet Для проведения исследования всего было скачано 2905 профилей сообществ LiveJournal и профилей сообществ LiveInternet

Задачи Построение х ронологи и создания сообществ Расчет усредненных значений атрибутов профилей и их корреляции Анализ р аспределени я интересов в сообществах Кластеризация сообществ по интересам, указанным в профиле Кластеризация интересов по сообществ ам, в профиле которых они указаны

Хронология создания сообществ LiveJournal

Хронология создания сообществ LiveJournal и LiveInternet

Атрибуты профилей LiveJournal Название поля профиляМаксимумСреднееМедиана 1Количество интересов Количество смотрителей271,81,0 3Количество модераторов120,30,0 4Количество членов Количество читателей Входит в сообщества (количество)290,10,0 7Тип аккаунта (0-беспл.,1-улучш., 2-платн.)20,030,00 8Дата создания Дата обновления Количество подарков50,010,00 11Количество записей Написано Получено Количество пользователей с правом записи

Атрибуты профилей LiveJournal. Корреляция ,110,090,100,110,010,050,160,190,030,04-0,050,050,10 2 0,230,310,300,020,16-0,020,130,070,300,010,30 3 0,260,29-0,010,110,040,060,040,120,010,160,25 4 0,910,060,19-0,210,170,100,730,080,620,99 5 0,050,15-0,180,180,070,580,060,520,90 6 0,00-0,110,020,000,05 0,030,04 7 0,070,020,000,05 0,030,04 8 0,12-0,01-0,20-0,21-0,15-0,21 9 0,030,12-0,050,080, ,130,090,140, ,150,740, ,130, ,62

Атрибуты профилей LiveInternet Название поляМаксимумСреднееМедиана 1Дата регистрации Записей в дневнике Комментариев в дневнике Написано сообщений ,16-0,05-0,03 20,44 30,99

Распределение интересов в сообществах LiveJournal Хотя бы 1 интерес был указан в профиле 2260 сообществ Общее количество интересов получилось равным 43247

Распределение интересов в сообществах LiveJournal

Величина ICW рассчитывалась как сумма весов интересов, указанных в профиле сообщества. Вес интереса был равен частоте его встречаемости в профилях всех сообществ. Величина CIC рассчитывалась как количество интересов из профиля сообщества, указанных также в профиле хотя бы одного другого сообщества.

Распределение интересов в сообществах LiveInternet

Кластеризация сообществ по интересам (интересов по сообществам) Первичное расстояние между сообществами расcчитывалось по формуле: Сообщество c i рассматривалось как множество интересов, указанных в его профиле. При проведении процедуры кластеризации расстояние между кластерами рассчитывалось по формуле среднего расстояния. При проведении кластеризации интересов расчет расстояния между интересами выполнялся по аналогичной формуле, при этом вместо размера сообщества подставлялся размер множества сообществ, в которых указан данный интерес.

Кластеризация сообществ по интересам (интересов по сообществам) В качестве исходных данных для процедуры кластеризации сообществ (интересов) была использована матрица сообщество-интерес, на основе который строилась матрица сообщество- сообщество (интерес-интерес). При проведении кластеризации интерес ов в связи с ограничениями вычислительного характера учитывались только интересы, указывавшиеся в двух и более сообществах, т.е. фактически кластеризация выполнялась на прореженных матрицах.

Исходные данные для построения матрицы Сообщество-Интерес

Характеристики матриц Сообщество-Интерес и "Сообщество- Сообщество" (без прореживания)

Характеристики матриц Сообщество-Интерес и "Интерес - Интерес " (с прореживанием)

Характеристики кластеров сообществ LiveJournal

Распределение кластеров сообществ LiveInternet при различных значениях порога кластеризации Th

Характеристики кластеров интересов LiveInternet

Распределение кластеров интересов LiveJournal при различных значениях порога кластеризации Th

Кластеризация сообществ CF – как часто встречается интерес в профилях сообществ, образующих кластер ICF – количество других кластеров, содержащих сообщества с этим интересом, PF – частота встречаемости интереса в профилях всех сообществ CF-ICF – метрика, аналогичная TF-IDF, и показывающая специфичность интереса для данного кластера

Ранжирование интересов в кластере (LiveInternet) ИнтересCFICFPFCF-ICFИнтересCFICFPFCF-ICF 1фоны ,82120lilac1110,031 2эпиграфы ,81521purple1110,031 3аватары ,63322violet1110,031 4картинки ,48823сиреневый1120,031 5дизайны ,28524фотошоп ,031 6заказы930590,16825схемы оформления1120,031 7дизайн ,12626велкомы1110,031 8фотошоп ,07727заголовки1110,031 9готовые дизайны37110,07228фотографии.1130,031 10фотографии ,05629глиттер1110,031 11подписи2460,052……………………….. 12поиск картинок24100,05261эмо ,015 13схемы28220,04762рисунки ,014 14оформление28270,04763гламур ,014 15анимации212290,04464интернет ,014 16дневники ,03965критика ,013 17сообщества231950,03766стихи ,013 18создание аватарок1110,03167аниме ,011 19happy tree friends1190,03168любовь ,010

Приложения поиск латентных суперсообществ и определение их тематики автоматическое структурирование пространства интересов автоматическая оценка тематической принадлежности и специфичности интересов

Спасибо за внимание. Вопросы, пожалуйста