Шарапов Руслан Владимирович Шарапова Екатерина Викторовна RCDL2008 Дубна, 8 октября 2008 г.

Презентация:



Advertisements
Похожие презентации
Шарапов Руслан Владимирович Шарапова Екатерина Викторовна RCDL2009 Петрозаводск, 19 сентября 2009 г.
Advertisements

Шарапов Руслан Владимирович Шарапова Екатерина Викторовна Диалог мая 2010 г.
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
Продвижение сайта Контекстные переходы оплата за переходы на сайт рекламодателя формат: текстово-графический блок Контекстные показы оплата за показы.
Докладчик: Денис Ванеев SEM-SEO.ru - Поисковая оптимизация сайтов.
Ekaterina B. Egorkina,© VEELTECH.RU Построение страницы с интерактивным отчетом Простейшая страница с отображением данных в табличном виде. Построение.
КУРС «WEB-ДИЗАЙН». Что такое Web-страница? То, что мы видим в окне браузера, когда заходим на какой-либо сайт! Мы видим веб-страницу сайта – ее содержимое!
Ekaterina B. Egorkina,© VEELTECH.RU Построение страницы с интерактивным отчетом Простейшая страница с отображением данных в табличном виде. Построение.
ПОИСКОВОЕ ПРОДВИЖЕНИЕ (SEO). ЗАЧЕМ? КАК? ДЛЯ КОГО? СП БЕЛПРОНТО ООО.
Инструментальные средства создания Web-сайтов
Оптимизация информационного поля компании в сети Интернет Ашарапова Елена Валентиновна, заместитель генерального директора ООО "Агентство виртуальных технологий.
Бесплатное продвижение возможно, или внутренняя оптимизация сайта. Якимов Василий телефон:
Директор по развитию УЧЕТ ТРЕБОВАНИЙ К БУДУЩЕМУ ПРОДВИЖЕНИЮ НА ЭТАПЕ РАЗРАБОТКИ САЙТА Алексей Довжиков.
Комплексный поисковый интернет-маркетинг Удодова Яна Комплексный поисковый интернет-маркетинг как залог успешного сайта для бизнеса.
Предложение по контекстной рекламе в Интернете Мы осуществляем полный комплекс услуг по эффективной реализации рекламных кампаний в Рунете. Входим в.
Развиваем Ваш Бизнес в интернете Веб-аналитика Как повысить эффективность сайта и рекламной кампании? Александр Кузьмин Коммерческий директор WebProfiters.
Физические модели баз данных Файловые структуры, используемые для хранения информации в базах данных.
Методы предварительной обработки данных для алгоритма Клейнберга А. Корявко И. Некрестьянов
Поисковое продвижение: как увеличить его эффективность? Евгений Трофименко Корпорация РБС - Российские Бизнес Системы
Проверка домашнего задания и актуализация знаний: Сопоставьте изображение и название топологии сети ЗВЕЗДА КОЛЬЦО ШИНА.
Транксрипт:

Шарапов Руслан Владимирович Шарапова Екатерина Викторовна RCDL2008 Дубна, 8 октября 2008 г.

Поисковая система Яндекс осуществляет поиск по 17 миллионам сайтов и 4 миллиардам веб-страниц.

БрокерЧисло страниц Sape.ru Xap.ru MainLink.RU Clx.ru *

Ссылки активно используются современными поисковыми системами для ранжирования результатов поиска. Со ссылками связано и понятия Индекса цитируемости в Яндекс и определение PageRank в Google. Массовое увеличение ссылочного спама может сильно испортить эффективность работы поисковых. Спам-ссылки могут размещаться на любых сайтах, в том числе и на очень уважаемых и популярных ресурсах. Становится невозможным простое деление страниц на хорошие и страницы для ссылочного спама.

В работе Z. Gyöngyi, H. Garcia-Molina, and J. Pedersen. Combating web spam with TrustRank описывается алгоритм TrustRank для борьбы со спамом. Принцип TrustRank строится на том, что хорошие страницы обычно ссылаются на хорошие страницы и редко используют ссылки для спама. Сначала выбирается набор хороших страниц и им назначается высокий вес. Далее вес разделяется на исходящие ссылки к другим страницам. Страницы с высоким весом принимаются за хорошие страницы. Авторы считают, что использование алгоритма TrustRank дает более качественные результаты, чем PageRank.

В работе B. D. Davison. Recognizing nepotistic links on the web. предлагается применять дерево решений для отделения спам-ссылок от обычных.

В работе D. Fetterly, M. Manasse, and M. Najork. Spam, damn spam, and statistics – Using statistical analysis to locate spam web pages. предлагается статистический анализ для выявления автоматически сгенерированных страниц со спамом. Отклонения от нормального распределения различных свойств страниц, включая имена и IP-адреса, входящие и исходящие ссылки, содержание страницы и норму изменения, – все это может свидетельствовать о спаме.

В работе N. Eiron, K. S. McCurley, and J. A. Tomlin. Ranking the web frontier. предлагается алгоритм HostRank (PageRank, вычисленный по графу хостов), который более гибок по отношению к ссылочному спаму. Алгоритм позволяет сократить число сомнительных сайтов в результатах поиска, что достигается уменьшением веса, получаемого сайтами от ссылочного спама.

В работе B. Wu and B. D. Davison. Identifying link farm pages предлагается идентифицировать страницы с ферм ссылок, основываясь на наблюдении, что входящее и исходящее их окружение имеет тенденцию пересекаться. Набор плохих страниц многократно расширяется и ссылки между ними отбрасываются.

Cуществующие алгоритмы базируются на анализе структуры сети ссылок, выявлении спамерских страниц и сайтов и т.д. Но они практически не предназначены для обнаружения хороших и спамерских ссылок на каждой отдельной странице. Цель исследования – определение спам- ссылок на любых веб-сайтах, в том числе авторитетных. На каждой отдельной странице могут присутствовать и обычные, и спам-ссылки.

1. Ссылки, отмеченные как рекламные объявления

2. Большой блок ссылок 3. Ссылки на агентства по продаже ссылок/рекламы

4. На сайте есть информация о том, как можно купить ссылки

5. Тематическая близость ссылки Агентство дает ипотечный кредит под 9 процентов.

6. Тематическая близость соседних ссылок 7. Место расположения ссылок 8. Код ссылок 9. Динамичность/Время жизни ссылок 10. Сообщение о платных ссылках 11. Просмотр страницы человеком

Алгоритм обнаружения ссылочного спама

Набор формируется из следующих ссылок: выбранных вручную; определенных алгоритмом раннее, как спам; определенных на основе анализа кода рекламных брокеров для автоматического размещения ссылок.

таможенное оформление Япония ЗАГСы Москвы, организация свадьбы в Москве

цитомегаловирус затем гарднереллез анализы мочи Статьи земельная тематика

Warning : mysql_connect(): Too many connections in /home/clx/inc/conf.inc on line 56 Детектор продажных ссылок

Шаг 1. Страница сканируется на наличие ссылок S b, занесенных в список S, сформированный на Этапе 1. При обнаружении таких ссылок сканируется область вокруг них. Если ссылки обнаружены, то им назначается пенальти q 1, величина которого снижается по мере удаления от ссылки S b.

Шаг 2. Страница сканируется на наличие признаков рекламного блока. Признаком могут служить слова "Реклама", "Спонсоры", Наши Партнеры и т.д. При обнаружении признаков рекламного блока, ссылкам в его окрестностях назначается пенальти q 2. Шаг 3. Страница сканируется на наличие ссылок на рекламного брокера. При обнаружении таких признаков рекламного блока, ссылкам в его окрестностях назначается пенальти q 3.

Шаг 4. Страница сканируется на наличие информации о продаже ссылок (и о том, каких можно купить). При обнаружении таких признаков, ссылкам в их окрестностях назначается пенальти q 4. Шаг 5. Страница сканируются на наличие большого блока ссылок. Если количество ссылок в блоке больше определенного порога, им назначается пенальти q 5.

Шаг 6. Ссылки сканируются на признаки кода рекламного брокера, в случае обнаружения которого ссылкам назначается пенальти q 6. Шаг 7. Проверяется соответствие тематики ссылки и общей тематики страницы. В случае несоответствия, ссылке назначается пенальти q 7. Для проверки тематики часто бывает достаточно просто просканировать текст страницы на совпадение слов с текстом ссылки.

Шаг 8. Проверяется соответствие тематики ссылки и тематики ссылок в ее окрестностях. В случае несоответствия, ссылке назначается пенальти q 8. Шаг 9. Проверяется место размещения ссылки. Если ссылка находится в самом конце страницы, ей назначается пенальти q 9.

Цель – выявить особенности структуры сайта и места на страницах, где встречаются платные ссылки. Из страниц сайта удаляется весь изменяющийся контент (кроме ссылок). Далее производится объединение страниц с одинаковым шаблоном в кластеры. Для каждого кластера удаляются повторяющиеся ссылки и идентифицируются области, где ссылки меняются на каждой страницы кластера. Для ссылок, входящих в такие области назначается пенальти q r.

Если сумма превышает определенный порог, делается вывод, что ссылка – спам. В этом случае ссылка заносится в список S.

Окно анализа страницы на спам-ссылки

Для тестирования были вручную отобраны 100 страниц с числом внешних ссылок от 1 до 30 на каждой. Общее количество ссылок составило 783. Для каждой страницы были вручную отмечены спам-ссылки, которых оказалось 519. В результате работы алгоритма 490 ссылок были отмечены как спам, их которых 449 действительно были спам-ссылками (совпали с отобранными вручную).

Precision0.92 Recall0.86 FalseSpam0.155 FalseNotSmap0.135