Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемКлара Петрыкина
1 Научный семинар НИЯУ МИФИ, 17 марта 2010 года Руководитель группы разработки качества поиска Андрей Стыскин Современные проблемы Интернет поиска
2 Что представляет из себя современный Интернет поиск?
3 Задачи Интернет поиска: Ответ на заданные вопросы: Навигационный поиск (найти место в интернете, телефон организации) Тематический поиск (получить информацию об объекте или явлении) Транзакционный поиск (где купить, скачать) Ответ на недозаданные вопросы и неправильно заданные вопросы Саджест Опечатки
4 SERP
5 Саджест Инструмент угадывания запроса по нескольким первым буквам
6 Колдунщики
9 Измерение качества поиска
10 Классический подход Полнота/точность MAP Dcg/ndcg
11 Поисковое поведение - первые 5 секунд
12 Поисковое поведение
13 Метрика удовлетворенности пользователя Pfound Мы пытаемся посчитать вероятность того, что пользователь найдет ответ на свой вопрос
14 Google vs Яндекс
15 Обучение ранжированию (Learning To Rank)
16 Подбор формулы У нас есть набор четверок {оценка, запрос, документ, набор факторов} Факторы: текстовая релевантность (TF*IDF, BM25), линковая релевантность, статическая релевантность (PageRank), запросные Нам нужно аппроксимировать оценку зная значения факторов – задача регрессии Нам нужно максимизировать Pfound - стохастический алгоритм Differential Evolution
17 О чём не будет в презентации: Методов Learning To Rank (вопросов оцененности, обучения на частично определенных данных, обучения на пользовательских данных) Лингвистики Вопросов текстового/линкового/статического ранжирования Вопросов, связанных с обходом Интернет
18 Тематические поиски
19 Какие бывают вертикальные поиски? Быстрый поиск Музыка/Видео/Картинки Задача разнообразия
20 Проблемы обычного ранжирования Свежесть Важно не количество ссылок, а производная Нет многих статических факторов, которые зависят от времени Нет сигнала в базе ассесоров (невоспроизводимость вчерашних событий в базе)
21 Решение Свежесть База быстрых документов Быстрые факторы (Яндекс.Бар, ICQ, ссылки из блогов) Расчет вероятности потребности в свежих результатах: соотношение найденного в быстрой базе к Веб-базе Смешивание (о модели смешивания чуть позже)
22 Проблемы обычного ранжирования Музыка/Видео Скорость обхода Интернет (из-за бана роликов) Специальные факторы (число просмотров)
23 Решение Музыка/Видео Специализированный поиск Классификатор запросов Подмешивание результатов
24 Запросные классификаторы Классификатор запросов Маркеры Переформулировки/Перезадания Словари исполнителей/произведений Высокая точность, низкая полнота (до 30%-40%)
25 Классификаторы по выдаче Обучим наивный Байесов классификатор В качестве обучающей выборки возьмем запросы, классифицированные точным классификатором, против всех остальных Признаки: домены сайтов, присутсвующие в top10 (либо кликнутые домены) Обучим классификатор и подберем порог срабатывания, чтобы обеспечить лучшую F- меру на размеченном множестве Точность: 75% на классе музыкальных запросов Полнота: 75%
26 Постановка проблемы Задача разнообразия Один и тот же подход и в задаче категоризации, и в задаче разнообразия Рассматриваем 2 типа запросов (объект) (объект) (потребность) Пример Sony Ericsson w800i Sony Ericsson w800i цены
27 Некоторые потребности свидетельствуют о принадлежности к категории Категория «телеканалы»: телепрограмма онлайн трансляция телеканал Уточнения-«свидетели» отличаются от важных потребностей: телепрограмма – и то, и другое канал – ни то, ни другое Итого: список «свидетелей» тоже можно получать в полуавтоматическом режиме; это другой список Уточнения – «свидетели» Задача разнообразия
28 Собираем новые объекты, используя «свидетелей» Полуавтоматический режим: выделяем потенциальных «свидетелей» (аналогично tf*idf) вручную фильтруем, разбиваем на группы; используем правило «по одному свидетелю хотя бы из 2 групп» высокая точность, маленькая полнота проблема омонимов («Нирвана» - фильм или группа? «Обитаемый остров» - книга или фильм?) Итого: machine learning здесь сложен, но это не страшно: получается и вручную Категоризация Задача разнообразия
29 фильм музыкальное произведение музыкант или группа книга писатель или поэт город страна автомобиль банк ресторан еда (блюдо) организация компьютерная игра гаджет (телефон, mp3-плеер) мультфильм заболевание лекарство радиостанция телеканал софт ник жж-блоггера знаменитый человек товар или торговая марка тема для реферата Категоризация Задача разнообразия
30 32931 объект (примерно половина – из двух обширных категорий «товар» и «тема для реферата») >8% запросов из потока распознаются как [(объект известной категории)] >3% запросов распознаются как [(объект) (известная потребность)] высокая точность («на глаз») низкая полнота (опять же, «на глаз») некоторые категории таким способом не выделяются, т.к. невозможно найти «свидетелей». Пример: футбольные клубы, футболисты Итоги Задача разнообразия
31 у пользователя в голове ровно одна из множества потребностей но при этом выделяемые потребности могут перекрываться («саундтрек» и «скачать mp3», «википедия» и «биография») сайты и страницы отвечают сразу на несколько потребностей с разной точностью (например, морда городского портала); иногда только на одну (например, страница с рецептом блюда), но для нас это не является специальным случаем пользователи высказывают свои потребности в явном виде в формате [(объект) (важная потребность)] с репрезентативной относительной частотой (предположение откровенности) Матмодель Задача разнообразия
32 Зная вероятности p ik, с которыми k-тая страница выдачи (из N) отвечает на i-тую потребность, можем вычислить аналог pfound, взвешенный по частотам потребностей w i. В процессе вычисления на k-том шаге будут известны plook ik и pfound ik. Ответом будет Теорема. В предположении, что нам известны p ik и w i, в идеальной выдаче на каждом шаге k сумма максимальна. Для сравнения, если максимизировать по pfound без разнообразия, максимальной на каждом шаге будет сумма Схема доказательства. Сравниваем две выдачи, отличающиеся перестановкой соседних позиций Матмодель Задача разнообразия
33 Вопросы? Предложения?
34 Заголовок подтемы Заголовок темы Оформлением этой страницы сможет быть любое содержание, например: Текст, списки различных уровней, нумерованные и не нумерованные Картинки, графики, диаграммы, схемы, таблицы и даже видеофайлы Это самый широкий и свободный по своему применению шаблон.
35 Руководитель группы разработки качества поиска +7 (495) Андрей Стыскин
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.