Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемrcdl2009.krc.karelia.ru
1 Шарапов Руслан Владимирович Шарапова Екатерина Викторовна RCDL2009 Петрозаводск, 19 сентября 2009 г.
2 Поисковый спам - попытки манипулирования поисковыми системами с целью достижения сайтом более высоких позиций в результатах поиска по пользовательским запросам. Спам содержания (контента) - методы искусственного добавления ключевых слов на страницу (в заголовки, метатеги, тексты ссылок, названия URL и текст страниц). Ссылочный спам - формирование ссылочных структур, способных повлиять на алгоритмы работы поисковых систем.
3 Обмен ссылками и создание ферм ссылок. Автоматизированные средства массового размещения ссылок: 1. специализированные программные продукты (Allsubmitter и т.д.) 2. пакетная покупка ссылок через рекламных брокеров (Sape.ru, Xap.ru, MainLink.ru, LinkFeed.ru и т.д.)
4 БрокерЧисло страниц 2008 Число страниц 2009 Число сайтов 2009 Sape.ru Xap.ru (?) MainLink.ru LinkFeed.ru SetLinks.ru
7 Ссылки активно используются современными поисковыми системами для ранжирования результатов поиска. Со ссылками связано и понятия Индекса цитируемости в Яндекс и определение PageRank в Google. Массовое увеличение ссылочного спама может сильно снизить эффективность работы поисковых. Ссылочный спам может размещаться на любых сайтах, в том числе и на очень уважаемых и популярных ресурсах. Становится невозможным простое деление страниц на хорошие и страницы для ссылочного спама.
8 Алгоритмы, построенные на основе/по принципу PageRank (TrustRank, Anti-Trust Rank, SpamRank, HostRank и т.д.) Деревья решений C4.5 Метод опорных векторов (SVM)
9 Существующие алгоритмы базируются на анализе структуры сети ссылок, выявлении спамерских страниц и сайтов и т.д. Но они практически не предназначены для обнаружения хороших и спамерских ссылок на каждой отдельной странице. Цель исследования – определение спам- ссылок на любых веб-сайтах, в том числе авторитетных. На каждой отдельной странице могут присутствовать и обычные, и спам-ссылки.
10 Метод опорных векторов Support Vector Machines: обучение на тренировочных данных, классификация. Для работы метода необходимо определение пространства признаков, по которым будет проходить выявление ссылочного спама.
11 Группа 1. Свойства ссылки: 1.1. Тематическая близость ссылки и страницы 1.2. Тематическая близость сайта, на который ведет ссылка и страницы, на которой ссылка расположена 1.3. Тематическая близость соседних ссылок
12 1.4. Расположение ссылки в блоке ссылок 1.5. Место расположения ссылок 1.6. Пометка ссылки как рекламного объявления
13 1.7. Наличие похожих ссылок на сайте 1.8. Наличие ссылки в спам-списке 1.9 Признак размещения ссылки рекламным брокером Детектор продажных ссылок
15 Группа 2. Свойства страницы/сайта: 2.1. Наличие спам-ссылок на сайте Наличие спам-ссылок на странице.
16 2.3. На сайте есть информация о том, как можно купить ссылки
17 2.4. Наличие на сайте признаков кода рекламных брокеров 2.5. Наличие на странице признаков кода рекламных брокеров Warning : mysql_connect(): Too many connections in /home/clx/inc/conf.inc on line 56
18 таможенное оформление Япония ЗАГСы Москвы, организация свадьбы в Москве
19 цитомегаловирус затем гарднереллез анализы мочи Статьи земельная тематика
20 2.6. Наличие на сайте ссылки на рекламного брокера Наличие на странице ссылки на рекламного брокера.
21 2.8. Отношение числа внешних ссылок на странице к среднему числу внешних ссылок на сайте Процент контента страницы, занятого внешними ссылками Совпадение IP-адресов сайтов Совпадение контактных сайтов.
22 В качестве тестовых наборов использовалась собственная коллекция RV, коллекции Narod.ru и By.Web семинара РОМИП. В каждой коллекции были выделены ссылки, для которых установлены метки спам и не спам
23 В коллекцию RV вошли ссылки с 20 сайтов, размещающих спам-ссылки (информация о местах размещения платных ссылок были предоставлены нам владельцами сайтов). Число страниц на каждом сайте – от 100 до Всего было размечено (в автоматическом режиме) спам- ссылок и 8000 обычных ссылок.
24 Коллекция Narod.ru содержит сайты 2003 года, когда ссылочный спам только начинал свое массовое распространение (первая биржа ссылок clx.ru появилась в середине 2002 года) и в ней отсутствуют некоторые признаки ссылочного спама. Мы произвольно выбрали из коллекции набор страниц, на которых вручную провели разметку ссылок. Всего было размечено 2000 ссылок, из которых спам-ссылок 500, обычных ссылок 1500.
25 Коллекция By.Web оказалась более современной и интересной. В ней ссылочный спам представлен достаточно ярко и разносторонне. Из-за ограниченности в ресурсах, мы выбрали по 3500 спам и обычных ссылок.
26 Для исследований использовался пакет SVM-Light с линейным ядром и параметрами по умолчанию. Для коллекции RV были выбраны 4000 ссылок для обучения (по 2000 спам и не спам). Для классификации было использовано спам и 6000 не спам ссылок.
27 Для коллекции Narod.ru были выбраны 200 ссылок для обучения (по 100 спам и не спам). Для классификации было использовано 400 спам-ссылок и 1400 не спам. Для коллекции By.Web были выбраны по 1750 спам и не спам ссылок для обучения. Для классификации было использовано также по 1750 ссылок (всего 3500).
29 RVNarod.ruBy.Web Precision Recall FalseSpam FalseNotSmap
31 Расширение пространства признаков. Анализ значимости признаков. Оптимизация параметров SVM-Light. Продолжение разметки ссылок в коллекции By.Web.
32 Спасибо за внимание!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.