Шарапов Руслан Владимирович Шарапова Екатерина Викторовна RCDL2009 Петрозаводск, 19 сентября 2009 г.

Презентация:



Advertisements
Похожие презентации
Шарапов Руслан Владимирович Шарапова Екатерина Викторовна RCDL2008 Дубна, 8 октября 2008 г.
Advertisements

Шарапов Руслан Владимирович Шарапова Екатерина Викторовна Диалог мая 2010 г.
Докладчик: Денис Ванеев SEM-SEO.ru - Поисковая оптимизация сайтов.
Оптимизация информационного поля компании в сети Интернет Ашарапова Елена Валентиновна, заместитель генерального директора ООО "Агентство виртуальных технологий.
ПОИСКОВОЕ ПРОДВИЖЕНИЕ (SEO). ЗАЧЕМ? КАК? ДЛЯ КОГО? СП БЕЛПРОНТО ООО.
КУРС «WEB-ДИЗАЙН». Что такое Web-страница? То, что мы видим в окне браузера, когда заходим на какой-либо сайт! Мы видим веб-страницу сайта – ее содержимое!
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
Search Engine Marketing SEM, SEO. Содержание SEM SEO.
Продвижение интернет- магазинов. Как заставить интернет-магазин продавать? Ксения Бабий руководитель отдела продвижения Семинар «1С-Битрикс: Веб для бизнеса»
Продвижение сайта Контекстные переходы оплата за переходы на сайт рекламодателя формат: текстово-графический блок Контекстные показы оплата за показы.
АЛЕКСЕЙ КОЛОМЫЦ ICK GROUP Нужна ли seo-оптимизация для интернет-магазина?
Бесплатное продвижение возможно, или внутренняя оптимизация сайта. Якимов Василий телефон:
"Информационные технологии, Интернет и мультимедиа на службе Церкви и религиозного образования" 1. Принципы работы поисковых систем - Концепция web поиска.
29 сентября 2011 года SEO Conference Естественное продвижение сайта Василий Ткачев, All in Top.
Изучение алгоритмов поисковых систем с помощью автоматизированной системы комплексной аналитики Евгений Трофименко Начальник отдела исследований и аналитики,
Комплексный поисковый интернет-маркетинг Удодова Яна Комплексный поисковый интернет-маркетинг как залог успешного сайта для бизнеса.
РАБОТА С ПОИСКОВЫМИ СИСТЕМАМИ Поисковая оптимизация сайтов Докладчик : Денис Ванеев.
Лекция 1 Основные понятия и определения Гвасалия Дарья Александровна.
Мурад Эфендиев Исполнительный директор Компания Color-IT Продвижение нового сайта. Комплексное решение.
Инструментальные средства создания Web-сайтов
Транксрипт:

Шарапов Руслан Владимирович Шарапова Екатерина Викторовна RCDL2009 Петрозаводск, 19 сентября 2009 г.

Поисковый спам - попытки манипулирования поисковыми системами с целью достижения сайтом более высоких позиций в результатах поиска по пользовательским запросам. Спам содержания (контента) - методы искусственного добавления ключевых слов на страницу (в заголовки, метатеги, тексты ссылок, названия URL и текст страниц). Ссылочный спам - формирование ссылочных структур, способных повлиять на алгоритмы работы поисковых систем.

Обмен ссылками и создание ферм ссылок. Автоматизированные средства массового размещения ссылок: 1. специализированные программные продукты (Allsubmitter и т.д.) 2. пакетная покупка ссылок через рекламных брокеров (Sape.ru, Xap.ru, MainLink.ru, LinkFeed.ru и т.д.)

БрокерЧисло страниц 2008 Число страниц 2009 Число сайтов 2009 Sape.ru Xap.ru (?) MainLink.ru LinkFeed.ru SetLinks.ru

Ссылки активно используются современными поисковыми системами для ранжирования результатов поиска. Со ссылками связано и понятия Индекса цитируемости в Яндекс и определение PageRank в Google. Массовое увеличение ссылочного спама может сильно снизить эффективность работы поисковых. Ссылочный спам может размещаться на любых сайтах, в том числе и на очень уважаемых и популярных ресурсах. Становится невозможным простое деление страниц на хорошие и страницы для ссылочного спама.

Алгоритмы, построенные на основе/по принципу PageRank (TrustRank, Anti-Trust Rank, SpamRank, HostRank и т.д.) Деревья решений C4.5 Метод опорных векторов (SVM)

Существующие алгоритмы базируются на анализе структуры сети ссылок, выявлении спамерских страниц и сайтов и т.д. Но они практически не предназначены для обнаружения хороших и спамерских ссылок на каждой отдельной странице. Цель исследования – определение спам- ссылок на любых веб-сайтах, в том числе авторитетных. На каждой отдельной странице могут присутствовать и обычные, и спам-ссылки.

Метод опорных векторов Support Vector Machines: обучение на тренировочных данных, классификация. Для работы метода необходимо определение пространства признаков, по которым будет проходить выявление ссылочного спама.

Группа 1. Свойства ссылки: 1.1. Тематическая близость ссылки и страницы 1.2. Тематическая близость сайта, на который ведет ссылка и страницы, на которой ссылка расположена 1.3. Тематическая близость соседних ссылок

1.4. Расположение ссылки в блоке ссылок 1.5. Место расположения ссылок 1.6. Пометка ссылки как рекламного объявления

1.7. Наличие похожих ссылок на сайте 1.8. Наличие ссылки в спам-списке 1.9 Признак размещения ссылки рекламным брокером Детектор продажных ссылок

Группа 2. Свойства страницы/сайта: 2.1. Наличие спам-ссылок на сайте Наличие спам-ссылок на странице.

2.3. На сайте есть информация о том, как можно купить ссылки

2.4. Наличие на сайте признаков кода рекламных брокеров 2.5. Наличие на странице признаков кода рекламных брокеров Warning : mysql_connect(): Too many connections in /home/clx/inc/conf.inc on line 56

таможенное оформление Япония ЗАГСы Москвы, организация свадьбы в Москве

цитомегаловирус затем гарднереллез анализы мочи Статьи земельная тематика

2.6. Наличие на сайте ссылки на рекламного брокера Наличие на странице ссылки на рекламного брокера.

2.8. Отношение числа внешних ссылок на странице к среднему числу внешних ссылок на сайте Процент контента страницы, занятого внешними ссылками Совпадение IP-адресов сайтов Совпадение контактных сайтов.

В качестве тестовых наборов использовалась собственная коллекция RV, коллекции Narod.ru и By.Web семинара РОМИП. В каждой коллекции были выделены ссылки, для которых установлены метки спам и не спам

В коллекцию RV вошли ссылки с 20 сайтов, размещающих спам-ссылки (информация о местах размещения платных ссылок были предоставлены нам владельцами сайтов). Число страниц на каждом сайте – от 100 до Всего было размечено (в автоматическом режиме) спам- ссылок и 8000 обычных ссылок.

Коллекция Narod.ru содержит сайты 2003 года, когда ссылочный спам только начинал свое массовое распространение (первая биржа ссылок clx.ru появилась в середине 2002 года) и в ней отсутствуют некоторые признаки ссылочного спама. Мы произвольно выбрали из коллекции набор страниц, на которых вручную провели разметку ссылок. Всего было размечено 2000 ссылок, из которых спам-ссылок 500, обычных ссылок 1500.

Коллекция By.Web оказалась более современной и интересной. В ней ссылочный спам представлен достаточно ярко и разносторонне. Из-за ограниченности в ресурсах, мы выбрали по 3500 спам и обычных ссылок.

Для исследований использовался пакет SVM-Light с линейным ядром и параметрами по умолчанию. Для коллекции RV были выбраны 4000 ссылок для обучения (по 2000 спам и не спам). Для классификации было использовано спам и 6000 не спам ссылок.

Для коллекции Narod.ru были выбраны 200 ссылок для обучения (по 100 спам и не спам). Для классификации было использовано 400 спам-ссылок и 1400 не спам. Для коллекции By.Web были выбраны по 1750 спам и не спам ссылок для обучения. Для классификации было использовано также по 1750 ссылок (всего 3500).

RVNarod.ruBy.Web Precision Recall FalseSpam FalseNotSmap

Расширение пространства признаков. Анализ значимости признаков. Оптимизация параметров SVM-Light. Продолжение разметки ссылок в коллекции By.Web.

Спасибо за внимание!