Статистические методы исследования алгоритмов текстового ранжирования поисковых систем Зябрев Илья Николаевич генеральный директор, AlterTrader Research.

Презентация:



Advertisements
Похожие презентации
Работа учащегося 7Б класса Толгского Андрея. Каждое натуральное число, больше единицы, делится, по крайней мере, на два числа: на 1 и на само себя. Если.
Advertisements

Таблица умножения на 8. Разработан: Бычкуновой О.В. г.Красноярск год.
Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 4500 к решению Совета депутатов города Новосибирска от
Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______ Масштаб 1 : 5000.

Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 6000 Приложение 7 к решению Совета депутатов города Новосибирска.
Приложение 1 к решению Совета депутатов города Новосибирска от Масштаб 1 : 5000.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
Рейтинг территорий с преимущественно городским населением по уровню преступности в 2008 году 1ЗАТО «Звездный»33,10 2Гремячинский230,00 3г. Кунгур242,00.
ЦИФРЫ ОДИН 11 ДВА 2 ТРИ 3 ЧЕТЫРЕ 4 ПЯТЬ 5 ШЕСТЬ 6.
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от
Анализ результатов краевых диагностических работ по русскому языку в 11-х классах в учебном году.
Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 6000 Приложение 7 к решению Совета депутатов города Новосибирска.
Число зарегистрированных преступлений. Уровень преступности.
Результаты сбора и обработки баз данных неработающего населения муниципальных общеобразовательных учреждений города Краснодара за период с 02 по 10 февраля.
Курсы повышения квалификации (общие показатели в %)
Тренажор Таблично умножение Отлично!
Тренажёр Табличное умножение Молодцы!
Анализ итогов успеваемости обучающихся 2-11 х классов за 1 четверть 2012 – 2013 учебного года.
Транксрипт:

Статистические методы исследования алгоритмов текстового ранжирования поисковых систем Зябрев Илья Николаевич генеральный директор, AlterTrader Research Ltd.

Поисковая система как черный ящик Поисковая система Множество Интернет документов Запрос Параметры запроса Результаты поиска

Простейшие частотные метрики состава html-страниц Абсолютная теговая частота леммы слова – количество канонических форм слова в заданном теге html-страницы. N(L)=|L:L T| (1) - количество вхождений леммы слова L в заданный тег T. Относительная теговая частота леммы слова – отношение абсолютной теговой частоты леммы слова к общему числу лемм заданного тега html- страницы. N%(L)=N(L)/ N(li), li T (2) Различные производные от обратной частоты документа (IDF) или обратной частоты класса ICF метрик. IDF(L)=D/DF(L) (3), где D-общее число документов коллекции, DF(L) - число документов, в которых встречается лемма L ICF(L)=TCF/CF(L) (4), где TCF-общее число лемм коллекции, CF(L) - число вхождений леммы L во все документы коллекции.

Производные от ICF/IDF метрики IDF(L)*N(L), IDF(L)*N%(L) (5) (6) где li,j-все леммы j-го предложения, содержащего L, Lenj- количество слов j-го предложения. (7) Для каждой характеристики вместо IDF(L) можно использовать ICF(L), log(IDF(L)), log(ICF(L)). Все перечисленные выше метрики вычисляются как для каждой леммы из запроса отдельно, так и для их совокупности

Коэффициенты корреляции Пирсона (для количественных величин) (8), где - математическое ожидание величины Х. Кенделла (для ранговых величин) (9), где S=P-Q, P- суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y, Q суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y Спирмена (для ранговых величин) (10), где di=r(Yi)-r(Xi), r(X)-ранг Х.

Этапы исследования принципов текстового ранжирования Этап 1. Формирования множества данных для анализа. Делается подборка запросов, максимально исключающая влияние ссылочного фактора. Например, запросы из непопулярных слов или запросы, задающие поиск по одному сайту. Чем больше различных запросов используется для проведения анализа, тем выше их статистическая значимость. Этап 2. Вычисление числовых характеристик. Характеристики для исследования выбираются на основе проведенных предварительных наблюдений или возникающих в процессе исследования поисковых систем гипотез. В докладе представлены простейшие из них. Этап 3. Вычисление коэффициентов корреляции. Ранговые коэффициенты вычисляются по формулам (9) или (10), а Пирсона по формуле (8), когда ранги исследуемых характеристик равны, а анализ носит сравнительный характер. Этап 4. Анализ результатов. Если некоторая характеристика на различных запросах имеет устойчиво высокий по модулю коэффициент корреляции, то делается вывод о том, что она влияет на текстовое ранжирование.

Таблица 1. Коэффициенты корреляции для характеристик без учета тегов ИсточникMiratoolsATR Исходная метрикаIDF ICF -- Формула (6.1)(6.2)(6.1)(6.2)(6.1)(6.2)(1)(2) Запрос гонор-0,52-0,5-0,64-0,48-0,67-0,55-0,5-0,1 банальность-0,390,181-0,640,173-0,690,195-0,180,083 клюв-0,71-0,25-0,65-0,25-0,67-0,25-0,24-0,05 зло-0,630,318-0,660,317-0,710,3450,29-0,55 струпья-0,68-0,69-0,76-0,65-0,78-0,77-0,67-0,1 маньяк-0,42-0,64-0,74-0,6-0,86-0,69 -0,32 подзатыльник-0,68-0,64-0,75-0,66-0,83-0,68-0,64-0,1 традиции-0,6-0,58-0,79-0,63-0,82-0,63-0,58-0,47 ученый-0,74-0,54-0,78-0,53-0,85-0,54 -0,37 выдумка-0,41-0,66-0,83-0,67-0,91-0,71-0,7-0,58

Таблица 2. Коэффициенты корреляции для характеристик тега body ИсточникMiratoolsATR2009 Исходная метрикаIDF ICF Формула (6.1)(6.2)(6.1)(6.2)(6.1)(6.2)(1)(2) Запрос гонор-0,51-0,5-0,66-0,5-0,67-0,51-0,49-0,19 банальность-0,340,181-0,610,186-0,650,188-0,190,032 клюв-0,7-0,23-0,68-0,23-0,78-0,25-0,21-0,04 зло-0,630,311-0,660,302-0,690,3250,291-0,65 струпья-0,42-0,44-0,52-0,45-0,53-0,49-0,44-0,07 маньяк0,151-0,62-0,79-0,59-0,8-0,68 -0,37 подзатыльник-0,7-0,73-0,78-0,69-0,86-0,75-0,68-0,16 традиции-0,61-0,62-0,78-0,62-0,84-0,64-0,59-0,54 ученый-0,73-0,55-0,79-0,59-0,84-0,59-0,55-0,59 выдумка-0,41-0,66-0,84-0,67-0,95-0,73-0,69-0,56

Таблица 3. Коэффициенты корреляции для характеристик тега title ИсточникMiratoolsATR2009 Исходная метрикаIDF ICF Формула (6.1)(6.2)(6.1)(6.2)(6.1)(6.2)(1)(2) Запрос гонор0,0260,499-0,360,483-0,360,5360,416-0,45 банальность-0,350,128-0,730,129-0,730,1310,178-0,54 клюв-0,07-0,05-0,17-0,05-0,18-0,06-0,35-0,63 зло0,1790,002-00,002-00, ,76 струпья-0,170,333-0,430,34-0,480,3670,174-0,55 маньяк-0,21-0,54-0,44-0,57-0,46-0,55-0,18-0,57 подзатыльник-0,010,122-0,330,124-0,350,1270,226-0,45 традиции0,2270,193-0,360,182-0,40,1950,256-0,44 ученый00,748-0,290,723-0,30,7510-0,4 выдумка-0,040,159-0,340,166-0,350,169-0,15-0,43

Двухфакторная линейная регрессионная модель для оценивания позиции оптимизируемой страницы : Y(X1,Х2)=a2X2+a1X1+a0 Система уравнений по МНК Решение системы

Ваши вопросы