СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ Метахаус
ВЕРТИКАЛЬНЫЙ ПОИСК Ориентирован на определенную область Данные хранятся с учетом структуры предметной области Позволяет более точно задать запрос Возможность фильтрации, сортировки 2
ПРИМЕР 3
ПРИМЕРЫ ЗАПРОСОВ черная икра в ресторане с караоке около кремля гостиница с бассейном около киевской комплексная мойка в выхино преображенская площадь бассейн 50 метров банкомат с долларами рядом с пушкинской 4
ПОДХОДЫ К СБОРУ ДАННЫХ Полуавтоматический (+) Универсальность (+) Гибкость (-) Временные затраты (-) Участие человека Автоматический (-) Не для каждого сайта (+) Быстро (+) Дешево 5
ПОЛУАВТОМАТИЧЕСКИЙ СБОР Свести к минимуму человеческое участие Легкость реализации Простота поддержки Никаких RegExp, XPath 6
ИДЕЯ 7 Класс (предметная область) Шаблон (специфика сайта) +
КЛАСС Описывает структуру предметной области Похож на ООП класс Набор правил, как эту структуру обрабатывать и валидировать, нормализовывать 8
ПРИМЕР КЛАССА Товар интернет магазина 9 Наименованиеstring Ценаprice Категорииcategories Наш артикулreference
ПРИМЕРЫ ТИПОВ price 1 000,10р. -> ,000,000 рублей -> address Пушкинская -> Москва, Пушкинская площадь; lat: , lon: , 10
ПРИМЕР ШАБЛОНА 11 Средние временные затраты на 1 шаблон: минут
РЕЗУЛЬТАТ РАБОТЫ ШАБЛОНА Данные структурированы, провалидированы, нормализованы Удалены дубли Есть diff по сравнению с предыдущими данными Мониторинг «отвалившихся» шаблонов 12
ВОЗМОЖНОСТИ ПОИСКА Разбор запроса Поддержка морфологии и транслита Неверная раскладка клавиатуры «Возможно, вы имели в виду» Фасеты Фильтрация, сортировка, группировка Гео-поиск 13
РЕАЛИЗАЦИЯ Работает на базе Apache Solr Разная структура документа в зависимости от предметной области Можно гибко настраивать правила индексации через метаданные класса Отдельный индекс для анализа запроса 14
СПАСИБО! Минченков Павел Метахаус