Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемwww.hse.spb.ru
1 ВНУГ Интернет-исследования Руководитель: Олеся Кольцова Высшая школа экономики – Санкт-Петербург
2 О ВНУГе ВНУГ вырос из проекта «Учитель-ученики», грант Научного фонда НИУ-ВШЭ , гг. После получения гранта ЦФИ на год преобразуется во временную лабораторию интернет-исследований Участники: –Олеся Кольцова (руководитель) –Анастасия Кинчарова (сетевой анализ) –Кирилл Маслинский (анализ текстов) –Елизавета Терещенко (анализ текстов - стажер) –Юлия Павлова (анализ текстов – стажер) –Татьяна Ефимова (анализ текстов, администратор) –Сергей Кольцов (постановщик задач, математик) –Руслан Бахмудов (программист) –Виктория Сенева (сетевой анализ - стажер) –Алиса Баснарева (анализ текстов – волонтер)
3 ЗАДАЧИ ЛАБОРАТОРИИ выявление спектров мнений в сети по социально значимым темам, изучение структуры и динамики сообществ, характера распространения информации в сети, предикция социальной мобилизации через интернет Разработка методов решения этих задач, в т.ч. адаптация матметодов, решение проблем сбора данных, создание баз данных
4 МЕТОДЫ Автоматизированные методы анализа текстов, основанные на подходе bag of words: кластеризация, выявление тем (topic detection, topic modeling), sentiment analysis Методы сетевого анализа сетей комментирования *большие массивы данных
5 ЗАДАЧИ ВНУГа Доработка программного обеспечения Koltran BlogMiner Продолжение выявления тематической структуры блогосферы с на основе Латентной Дирихле-аллокации (инструмент Stanford Topic Modelling Toolbox) Адаптация методов sentiment analysis для выявления эмоциональной заряженности групп блогов. Волонтерский проект: освещение протестов декабря 2011 – тексты и сообщества комментирования
6 ДАННЫЕ Сплошная закачка постов, комментариев и метаданных ЖЖ на основе собственного ПО Koltran Blogminer На данный момент: несколько тестовых выборок за август – декабрь из топ-2000 блоггеров.
7 Спасибо за внимание!
8 Дополнительные слайды
9 UNIT OF SEMANTIC ANALYSIS Entire blogs are multi-topical and can not be clusterized except by fuzzy clustering –Problem A: still much noise Single posts are usually uni-topical and can be divided into strict clusters with low noise –Problem B: juxtaposing with SNA results Populations of topic-relevant posts from each blog can be units to be fuzzily clusterized with low noise –Problem C: blogs with more posts will have lower coefficients of belonging to clusters than single-post blogs
10 PROBLEM C ABCDE A: 50%; E: 100%
11 UNIT OF NETWORK ANALYSIS Entire blogs: network is easily interpreted –Problem 1.1: uncomparable with semantic clusters of posts –Problem 1.2: structure of intext and friending links in the Russian blogosphere (fusion of blogplatforms and social network platforms; platform dependence) Posts: data comparable –Problem 2.1: too few links between posts –Problem 2.2: too many links to non-blog resources Posts and comments: detects real conversational networks –Problem 3.1: star-like loosely connected subgraphs with unhomogeneous nodes and ties
12 PROBLEM 3.1.
13 SOLUTION & NEW PROBLEMS A B C D E Multiplex graph analysis is needed?
14 PROBLEM OF SUBGROUP / COMMUNITY DETECTION Problem 1: choice of definition –Traditional (n-cliques / n-clans, k-plexes / k-cores, LS-sets / λ-sets) –Definitions based on comparison with random graphs –Definitions based on vertex similarity Problem 2: choice of algorithms Problem 3: choice of software –It should work with large datasets –It should contain applicable algorythms
Еще похожие презентации в нашем архиве:
© 2023 MyShared Inc.
All rights reserved.