Евгений Трофименкоinfo@promosite.ru Переформулировки поисковых запросов в Яндексе Трофименко Евгений сЭо-эксперт info@promosite.ru

Презентация:



Advertisements
Похожие презентации
Евгений Переформулировки поисковых запросов в Яндексе Трофименко Евгений сЭо-эксперт
Advertisements

Использование особенностей языка запросов поиска Яндекса для исследований Трофименко Е.А. Корпорация РБС, начальник отдела.
Евгений Правильные апдейты Яндекса Трофименко Евгений сЭо-эксперт
Евгений Эволюция алгоритмов Яндекса и методов исследований: новые возможности анализа Трофименко Евгений сЭо-эксперт
Евгений Новые сервисы tools.promosite.ru: статистика запросов, аффилиаты, актуальные переформулировки, компании Трофименко.
Текстовые факторы ранжирования: от анализа до разработки сайта Трофименко Евгений Александрович (495) Корпорация.
Эволюция алгоритмов ранжирования Яндекса в гг. Сергей ЛЮДКЕВИЧ, начальник отдела исследований и аналитики.
БИЦ (библиотечно- информационный центр) МОУ гимназия 28 г. Костромы Поиск информации в Интернете. Поисковая система Яндекс.
Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета. Существуют три основных способа.
Евгений SEO-CRM как инструмент вовлечения клиента и автоматизации работы
Учитель информатики Артеменко Т.В. Поиск информации в Интернет.
Алгоритмы поисковой системы Яндекс. История поисковой системы Яндекс 25 ноября Предложена возможность проводить русифицированный поиск в Интернетес.
Поиск в русскоязычном Интернете. Поисковая система Я ндекс.
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
Основные понятия информационного поиска YANDEX.RUОсновные понятия информационного поиска YANDEX.RU.
Информационный поиск в Интернете Павел Морозов
Работу выполнил: Булыкин А.А. Содержание Поиск информации Основные способы поиска информации Поисковые серверы
Легенды и мифы российских оптимизаторов Сергей Людкевич, руководитель департамента Интернет-маркетинга.
Эффективные стратегии поискового продвижения. Почему именно Яндекс 50,8% 32,2% 9,1% 4,4% по данным статистики liveinternet.ru за май 2009 года.
Есть ли жизнь после отмены ссылок? Бессылочное продвижение.
Транксрипт:

Евгений Переформулировки поисковых запросов в Яндексе Трофименко Евгений сЭо-эксперт

Евгений Я: Переформулировки-2004 Были обнаружены осенью 2004 года. «Переколдовки» в URL сохраненной копии &reqtext=(реальный::111 & запрос::222)//6 Использовались для: 1.Расширения запроса другими словами 2.Усиления влияния отдельных слов 3.Ограничения расстояний между словами 4.Установка контрастности слов

Евгений Примеры-2004 Расширение запроса другими словами что такое ААА => ААА !%это::359 &/(-2 4) %означает::16316 &/(-2 4) %аббревиатура:: &/(-2 4) %расшифровывается:: Усиление влияния отдельных слов лоренциан => (лоренциан:: &/(0 0) !!%лоренциан:: ) Ограничение расстояний между словами новый год => (новый::532 &/(-1 3) год::502) Установка контрастности слов – двоеточечный вес. В общем, все как и сейчас. Прожил reqtext до весны 2007.

Евгений Переформулировки Лето 2008 – введены переформулировки запросов: Теперь поиск Яндекса (версия "Магадан") еще учитывает следующие отношения: а) некоторые типы переходов из одной части речи в другую ("гамбург" -> "гамбургский"); б) транслитерация ("mazda" -> "мазда"); в) аббревиатуры (МГУ -> Московский государственный университет). А также существенно ослаблены ограничения расстояний (поиск соседних слов в пределах документа) Ограничения расстояний можно было подобрать перебором (+слова +запроса) ~~ (+слова [ОПЕРАТОР] +запроса) Однако сейчас это «вылечено». Но зато появились подсказки в XML по опечаткам и варианты исправления исходного запроса.

Евгений Опечаточник в XML Есть несколько типов опечаток: Volapyuk, Undash и др. При комбинации нескольких вариантов опечаток «случайно» выдавался переформулированный запрос: (fizi-olog) (поисковая оптимизация) => Undash (fizi:: olog:: ) ((поисковая::17483 ^ поисковик::65545) &&/( ) (оптимизация::32653 ^ оптимизировать::95157 ^ оптимизироваться:: ))

Евгений Выкачка 1.Генерим экспериментальный массив со всеми словами русского языка (было 5М) 2.Ищем другие воляпюки (20К) => выкачиваем переформулировки по 1.3М запросов … нашли и закрыли.

Евгений Пример переформулировки: продвижение сайтов => становится: (продвижение::19047 ^ ((про::2793-движение::8030)) ^ продвигать::40288 ^ продвигаться::199208) &&/( ) сайтов::410 Новые части речи, транслит, аббревиатуры Большие расстояния «двоеточечные» веса Оператор ^ (терм не обязан присутствовать, но если есть, это плюс) Точные фразы и ограничения расстояний Почему-то возвратные глаголы тоже отдельно

Евгений транслитерация слов минск минск::14882 ^ minsk:: ^ минский::86345 minsk minsk:: ^ !!минск:: белоруссия белоруссия::33069 ^ belorussia:: ^ беларусь::10779 ^ беларусь::10779 трактор беларусь (трактор::57459 ^ tracktor:: ^ tractor:: ^ traktor:: ^ тракторный::306947) &&/( ) (беларусь::10779 ^ белоруссия::33069)

Евгений ограничения расстояний 10% запросов! 6300 nokia 6300:: &/(-3 3) nokia::12493 беларусь мтз (беларусь::10779 ^ белоруссия::33069) &&/( ) (мтз:: ^ mtz:: ^ ((минский::86345 &/(1 1) тракторный:: &/(1 1) завод::9716))) ндс беларусь (ндс::15903 ^ ((налог::10340 &/(1 1) на::90 &/(1 1) добавленную::725 &/(1 1) стоимость::4415))) &&/( ) (беларусь::10779 ^ белоруссия::33069)

Евгений работа с фрагментами слов разбиение и склейка автозапчасти минск (автозапчасти::26701 ^ ((авто::2979-запчасти::7418))) &&/( ) (минск::14882 ^ minsk:: ^ минский::86345) туроператор по белоруссии (туроператор::80911 ^ ((тур::3736-оператор::9437))) &&/( ) по::194 &&/( ) (белоруссии::33069 ^ беларусь::10779 ^ беларусь::10779) dsl 200 (dsl::91438 &/(-1 1) 200::4936) | dsl200::

Евгений работа с фрагментами слов Сколько бывает вариантов… w200i w200i:: ^ (!(w::1737 &/(1 1) 200::5303 &/(1 1) i::199)) ^ ((w200:: &/(1 1) !i::199)) ^ ((!w::1737 &/(1 1) 200i:: )) …все варианты разбиений буква-цифра

Евгений основное: расширения слов белорусский металлургический завод ((белорусский::31308 ^ белорусско::996648) &&/( ) (металлургический::78749 ^ металлургия::78617) &&/( ) (завод::9716 ^ заводик:: )) ^ !бмз:: белорусский квн (белорусский::31308 ^ белорусско::996648) &&/( ) (квн::77388 ^ kvn:: ^ ((клуб::2716 &/(1 1) веселых::15270 &/(1 1) и::54 &/(1 1) находчивых:: )))

Евгений курьезы переформулировок вряд ли только машины работают: партия единая россия (партия::10385 &&/( ) ((единая::10481 &/(-1 3) россия::827) ^ ер::234393) ^ !!едро:: ) ^ !!педирос::

Евгений витрина – это ведь окно? Да… взгляд с той стороны витрины

Евгений ФИО – новые зоны и термы !!! Экстракция сущностей в большом поиске !!! Для запросов, содержащих имена в виде 2+ слов вася пупкин Переформулируется с фрагментом *** ( fioname[((васяfi:: &&/( ) !!пупкин::901729))] | fiinname[((вfi::1574 &&/( ) !!пупкин::901729))] | fiinoinname[((вfi::1574 &&/( ) !!пупкин::901729))] | finame[((васяfi:: &&/( ) !!пупкин::901729))] ) Новые операторы (новые зоны?) соответствующие поиску по имени Новые термы (вfi) – поиск всех имен на букву «В» и сокращений

Евгений вfi – все имена на букву В экстракция объектов из текста…

Евгений поиск по зоне ФИО? Не очень нужные операторы fioname[ ] fiinname[ ] fiinoinname[ ] finame[ ]

Евгений А выделение сущностей в большом поиске - это мощные изменения… И ведь без микроформатов и разметки…

Евгений Оператор [^] Похож на % Доп.слово не обязательное Для запроса вида слово1 ^ слово2 Слово1 обязательно находится, ему приоритет Слово2 не обязано находиться. окна ^ мебель – окна первые мебель ^ окна – мебель первая domain:root ^ мебель ^ окна –окна выше!

Евгений А для [%] Не совсем похоже: Для запроса вида слово1 % слово2 Слово1 обязательно находится Слово1 и Слово2, похоже, равноправны в смысле ранжирования окна %мебель – (окна+мебель) первые мебель %окна – (окна+мебель) первые domain:root %мебель %окна - (окна+мебель) И выдачи похожие.

Евгений Контрастности (веса) слов ::вес – это НЕ IDF (классический) IDF (inverse document frequency обратная частота документа) А как выглядят набор ::весов – дискретный набор, являются целочисленными дробями от максимального веса. По куску коллекции --- Догадываемся - ::вес=D/Di Это отношение числа документов. Чтобы получить IDF, берем логарифм: => IDF=log(::вес) ::вессловотличие, раз

Евгений ::веса -не документные? А от словоформ? Не IDF, а ICF?

Евгений ::веса по разным коллекциям веса разные по RU, EN, UK коллекциям Слово fizi присутствовало во всех запросах. Оно имело разные веса в разных запросах! Есть три коллекции документов, по каждой считается свой вес. Русская(запрос с русскими словами) Англоязычная(запрос весь из цифр и английских букв) Украинская(пример: музика скачати безкоштовно) Одно и то же слово может обладать разной контрастностью для разных баз. Разное число документов, разная популярность слов.

Евгений Итого польза: Раньше мы знали про переформулировки, но теперь очевидно, что переформулировка производится на уровне исходного запроса Поэтому «дополнительные» слова обязаны давать вклад в релевантность, это не просто подсветка. Новые операторы (^, fio* и другие) Использование доп. слов при оптимизации и в ссылках Знания об ограничении расстояний в переколдовке – необходимы! Веса слов тоже полезны это частично внедрено в сервис

Евгений Вопросы? Переформулировки поисковых запросов в Яндексе Трофименко Евгений сЭо-эксперт