Сравнительное изучение атрибутов профилей сообществ LiveJournal в 2010 и 2011 годах Сычев А.В. Воронежский государственный университет. XIII Всероссийская.

Презентация:



Advertisements
Похожие презентации
Изучение характеристик сообществ русскоязычной блогосферы А.В. Сычев, И.А.Гадебский
Advertisements

Москва, 2011 Российские СМИ сегодня и их аудитория.
Москва, 2011 Доверие аудитории российским СМИ сегодня.
Пример: Анализ влияния структуры капитала банка на его устойчивость в условиях банковского кризиса. StatSoft ® Russia.
ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ХАРАКТЕРИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ГЕОЛОГИИ Лекция 3 по дисциплине «Математические методы моделирования в геологии» 1Грановская Н.В.
Нормальное распределение Тема 1. Вопросы для обсуждения 1.Случайная величина и ее распределение 2.Математическое ожидание и его оценка 3.Дисперсия и ее.
ИССЛЕДОВАНИЕ ПОТРЕБИТЕЛЬСКИХ НАСТРОЕНИЙ ПЕРМЯКОВ Агентство «Коммерческие Консультации и Исследования» г. Пермь июнь 2009 г.
Биостатистика: определение основной тенденции и дисперсии в условиях медицинской лабораторииииии.
Описательные характеристики распределения тестовых результатов 1.Меры среднего положения (меры центральной тенденции). Мода, медиана, среднее 2.Меры вариации.
Павел Самиев Заместитель генерального директора Рейтинговое Агентство «Эксперт РА» Сентябрь 2012 Качество активов банков: основные тенденции и новации.
Сравнительный анализ некоторых климатических характеристик гидрометеорологических обсерваторий Тикси (Россия) и Барроу (Аляска) (научное сообщение) 2011.
Возможно ли оценить эффективность образования в стране с помощью сравнительных международных мониторингов? (на примере международного исследования PISA)
Использование понятия производной в экономике. Рассмотрим функциональную зависимость издержек производства о количества выпускаемой продукции. Обозначим:
Какую стратегию продвижения сайта по запросам выбрать в условиях кризиса и часто изменяющихся алгоритмов?
1 Индикаторы оценки научной деятельности Обзор основных показателей для анализа публикационной активности и цитируемости авторов научных публикаций и научно-
СВЯЗАННЫЕ КОЛЕБАТЕЛЬНЫЕ КОНТУРЫ Автор Останин Б.П.Конец слайда Связанные контуры часть 2. Слайд 1 из 24 Основы теории цепей Часть 2.
Наумова Ирина Михайловна1 Функция y = cos x Ее свойства и график.
И ССЛЕДОВАНИЕ ОБЩЕСТВЕННОГ О МНЕНИЯ О ЕДИНОМ ГОСУДАРСТВЕНН ОМ ЭКЗАМЕНЕ.
6.4. Сложение целых чисел Школа 2100 school2100.ru Презентация для учебника Козлова С. А., Рубин А. Г. «Математика, 6 класс. Ч. 2» ГЛАВА VI. ЦЕЛЫЕ ЧИСЛА.
Отражение целевой тематики в публикациях и электронных препринтах "ЛЕОТЕСТ – 2011" "Электромагнитные и акустические методы неразрушающего контроля материалов.
Транксрипт:

Сравнительное изучение атрибутов профилей сообществ LiveJournal в 2010 и 2011 годах Сычев А.В. Воронежский государственный университет. XIII Всероссийская научная конференция RCDL2011 Электронные библиотеки: перспективные методы и технологии, электронные коллекции Воронеж, 19 – 22 октября 2011 года

Цель работы Исследование изменений значений атрибутов профилей сообществ блог- хостинга LiveJournal за 2010 год и за первую половину 2011 года.

Исходные данные Для решения задачи были использованы общедоступные данные: сервиса «Рейтинг сообществ» компании Яндекс ( в 2011 году сервиса «Поиск по блогам» компании Яндекс ( в 2010 году. Исходный набор данных содержал профили русскоязычных сообществ блог-хостинга LiveJournal. Набор был сформирован путем скачивания профилей в соответствии со списком из рейтинга сообществ.

Исходные данные

Профиль сообщества LiveJournal

Исходные данные Общее количество профилей составило: порядка 126 тысяч в январе 2011 года порядка 134 тысяч в июле 2011 года объем коллекции на жестком диске составил более 5Гбайт.

Сводные данные по набору профилей сообществ LiveJournal Исходные данные Параметр Год Изменение Янв янв 2010 Июл янв 2011 янв.10янв.11июл.11D%D% Пользователей > ,6>8792>0,8 Интересов , ,8 Сообществ ,182286,5 Сообществ (Доступных) ,783716,7

Сводные данные по атрибутам профилей сообществ LiveJournal Исходные данные Период Атрибут профиля Янв 2010 Среднее:13,4081,3072,2135,80859,70 Медиана:36574 Янв 2011 Среднее:11,1081,8762,7140,55720,41 Медиана:09392 Июл 2011 Среднее:10,7781,8961,9139,62710,44 Медиана:09352 Атрибуты: 1 - количество интересов сообщества; 4 - количество участников сообщества; 5 - количество читателей журнала сообщества; 9 - число записей в журнале; 11 - число полученных комментариев.

Средние значения за два периода наблюдения изменились в пределах 18% Медианы претерпели более значительные изменения. по интересам за год наблюдается практически 100% уменьшение, по числу участников - 50% увеличение, по числу комментариев -50% уменьшение. Данная тенденция указывает на заметное увеличение «хвоста» в ранговом распределении сообществ за счет появления большого числа спам-сообществ, зачастую не имеющих списка интересов в профиле и содержащих заметное число «участников», созданных одним спамером. Можно констатировать тенденцию к уменьшению числа комментариев от читателей в журналах сообществ. Исходные данные

Распределение атрибутов профилей по сообществам

Выводы : Около половины всех сообществ вообще не имеют комментариев от читателей, причем эта тенденция усиливается во времени. Наблюдаемые на графиках a) - c) скачки достигают величины 7- 8%, что соизмеримо с общим приростом количества сообществ (16.5 тыс. за 2010 год и 8 тыс. за первое полугодие 2011 года). Такие «аномалии», скорее всего, имеют отношение к спам- блогам. Наблюдается устойчивое по времени существенное доминирование сообществ, содержащих всего одного читателя. В целом имеет место тенденция уменьшения числа читателей. Процент сообществ с нулевым числом записей в журнале остается довольно высоким. Распределение атрибутов профилей по сообществам

Распределение сообществ в зависимости от количества интересов, указанных в профиле Исследование изменения интересов За год характер распределения существенно не изменился. Наибольший прирост сообществ наблюдается при числе интересов в профиле сообщества, близком к нулю.

Распределение сообществ в зависимости от изменения количества интересов (с ненулевым значением Исследование изменения интересов У подавляющего большинства (~97%) сообществ, изначально имевших непустой список интересов, размер списка не изменился У порядка 99% сообществ, имевших пустой список интересов в профиле, список интересов так и остался пустым спустя год.

Распределение количества интересов в зависимости от их частоты Исследование изменения интересов Зависимость процента изменения частоты интереса от значения его частоты

Исследование изменения интересов Для интересов, которые присутствовали в профилях в 2010 и 2011 годах, частота увеличилась в среднем на 0.43%. Наибольшие изменения наблюдались для высоко- и среднечастотных интересов

Методы исследования. Кластеризация Первичное расстояние между сообществами расcчитывалось по формуле: Сообщество c i рассматривалось как множество интересов, указанных в его профиле. При проведении процедуры кластеризации расстояние между кластерами рассчитывалось по формуле среднего расстояния. При проведении кластеризации интересов расчет расстояния между интересами выполнялся по аналогичной формуле, при этом вместо размера сообщества подставлялся размер множества сообществ, в которых указан данный интерес.

Кластеризация интересов Оценки размера кластера интересов для различных значений порога Th Распределение демонстрирует в целом стабильность средних размеров кластеров интересов во времени. Размер кластера можно рассматривать в качестве индикатора неспецифичности интересов. Чаще всего в одном кластере будут оказываться интересы, имеющие похожее распределение по сообществам.

Выводы: Интерес можно отнести к группе атрибутов профилей сетевого журнала сообщества, которые изменяются в наименьшей степени во времени. В большей степени изменяются средне- и высокочастотные интересы, при этом их частотные ранги достаточно устойчивы. Результаты кластеризации (если рассматривать изменения средних величин и медиан) свидетельствуют о том, что списки интересов, указанные в профилях сообществ, достаточно стабильны. Исследование изменения интересов

Изменение кластеров сообществ В качестве исходных данных для процедуры кластеризации сообществ по общим интересам были использованы значения из матрицы сообщество- интерес, построенной для примерно тысяч сообществ, содержавших в профилях не менее 10 интересов. Из нее затем была сформирована матрица сообщество-сообщество, по которой и была проведена кластеризация.

Для кластеризации были использованы порядка 34 тыс. сообществ в январе 2010 г., 36 тыс. – в январе 2011 г. и 37 тыс. – в июле 2011 г. Наблюдается устойчивость кластеров сообществ, построенных на основе учета списка интересов из профиля. Средние размеры кластеров сообществ также демонстрируют стабильность, заметный на гистограмме прирост происходит за счет увеличения общего числа сообществ. Также как и в случае с интересами размер кластера сообществ можно рассматривать в качестве индикатора неспецифичности сообществ. Изменение кластеров сообществ

В качестве исходных данных для процедуры кластеризации сообществ по общим участникам были использованы значения из матрицы сообщество-участник, построенной для примерно 37 тысяч сообществ, содержавших не менее 27 участников в июле 2011 года (не менее 25 участников в январе 2011 г. и не менее 13 участников в 2010 году). Из нее затем была сформирована матрица сообщество-сообщество, по которой в дальнейшем и проводилась кластеризация. Изменение кластеров сообществ

Характер изменения средних размеров кластеров сообществ очень похож при различных значениях порога кластеризации Th. Учитывая высокий процент инфильтрации блогосферы спамом, можно предположить, что заметные колебания среднего размера как в положительную так и в отрицательную сторону помимо естественного увеличения числа сообществ отражают также активность спам-блогов и результаты противодействия им со стороны пользователей и администраторов блог-хостинга. При этом инфильтрация сообществ спам-блогами носит скорее неизбирательный характер, что может объяснять подобие динамики размера кластера при различных значениях порога Th. Изменение кластеров сообществ

В качестве исходных данных для процедуры кластеризации пользователей-участников сообществ по общим сообществам были использованы значения из матрицы сообщество-участник, построенной для примерно 19 тысяч пользователей, участвующих не менее чем в 62 сообществах в 2011 году (не менее чем в 65 сообществах в 2010 году). Из нее затем была сформирована матрица участник-участник, по которой и была проведена кластеризация Изменение кластеров пользователей (участников)

Средний размер кластера пользователей-участников сообществ можно рассматривать как индикатор неизбирательности пользователей. Тогда увеличение активности спам-блогов и степени инфильтрации сообществ спамом должно проявляться в заметном увеличении среднего размера кластера пользователей, поскольку эффективность инфильтрации спамом достигается за счет автоматических методов, ориентированных на уязвимости блогов, а не на их содержание. Наибольшие изменения произошли для низких значений порога Th. При этом средний размер кластера при тех же значениях порога быстрее растет для пользователей, нежели для сообществ.

Кластеризации пользователей (со случайной выборкой пользователей) Тенденция похожа на ту, что приведена ранее (для неслучайной выборки) Однако изменения имеют более плавный характер

Выводы Содержательные изменения списка интересов в профиле охватывают относительно небольшое число сообществ, причем изменяются в большей степени характеристики средне- и высокочастотных интересов. Заметными и устойчивыми тенденциями являются: доминирование сообществ с нулевым числом читателей и с нулевым числом комментариев (при общем уменьшении обеих величин со временем у остальных сообществ) устойчивое процентное преобладание сообществ с нулевым числом записей в журнале. Кластеры на основе интересов и кластеры на основе пользователей демонстрируют различную динамику изменений во времени. Первые - более консервативны, и для них характерна «эволюционная» модель изменений, Во втором случае динамика больше тяготеет к «шумоподобной» модели, отражая в существенной степени влияние привходящих извне факторов.

Очень заметные изменения по кластерам для пользователей-участников сообществ при малых значениях порога Th могут отражать активность спам-блогов и мер противодействия спаму со стороны пользователей и администраторов блог- хостинга. Средний размер кластера может рассматриваться как индикатор специфичности (для интересов и сообществ) или избирательности (для пользователей). Выводы

Вопросы Спасибо за внимание!