СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ Метахаус.

Презентация:



Advertisements
Похожие презентации
Подсказки поисковых запросов: Всё самое интересное Алексей Долотов, Руководитель поисковых проектов Mail.ru.
Advertisements

Изучение алгоритмов поисковых систем с помощью автоматизированной системы комплексной аналитики Евгений Трофименко Начальник отдела исследований и аналитики,
Николай Хиврин Генеральный директор ALTWeb Group Алгоритмы автоматизированного составления семантического ядра.
Задачи проектирования ИПС: Анализ предметной области Определение структуры ИПС Определение видов поиска документов в ИПС Разработка структуры БД для ИПС.
Что делать, если нет времени купить нужный товар? Как найти необходимый товар? Хочу то, чего пока нет в магазинах Это только за рубежом Введение в проект.
Разработка и программная реализация клиентской базы данных отдела урегулирования убытков страховой компании ЗАО «МАКС» Научный руководитель: Бияков О.А.
ТЕМА : « Система SeoPult – взгляд изнутри » SeoPult 2010 «Поисковая оптимизация и продвижение сайтов в Интернете» © Павел Юшкевич, Технический директор.
Разработка системы информационного поиска в базе знаний Белякова Д.Ю. Группа С-105 МИЭМ
Модели и принципы построения прототипа системы электронной библиотеки вуза © Д.С. Зуев Казанский государственный университет Специальность
1 «Агент Плюс: Мобильная торговля» новое решение для ОС Android.
SEO для E-commerce 2014: технологии и кейсы Олег Шестаков Казань 2014 Рекламно-консалтинговое агентство Rush Москва ул. Бутлерова 17 б m:
Компания «Профит Плюс» представляет… Be Mobile! Первое универсальное средство автоматизации бизнеса!
Infinder.ru Сервисы электронной коммерции для предприятий сферы торговли.
Расширенный поиск Алгоритм расширенного поиска в сети интернет.
E-pepper.Ru Остренький интернет бизнес!. E-pepper.Ru Уникальный информационный ресурс на тему электронной коммерции.
Касьянов А.А. 1 ПРОЕКТ:. Общая характеристика проекта Цель проекта: повышение количества одновременно обслуживаемых интернет-пользователей, в условиях.
Москва Семантическая обработка данных в программно-аппаратном комплексе (ПАК), предназначенном для управления предприятиями и отраслями.
Промышленное прогнозирование. BaseGroup Labs Постановка задачи Прогнозированием можно назвать любой способ предсказать значения одной переменной в зависимости.
Платформа eDocLib: Удобный архив.Быстрый поиск.Надежное хранение данных из любых источников.
Опыт реализации системы контентной фильтрации Интернет-ресурсов на базе технологий АРИОН.
Транксрипт:

СБОР И ПОИСК СТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ Метахаус

ВЕРТИКАЛЬНЫЙ ПОИСК Ориентирован на определенную область Данные хранятся с учетом структуры предметной области Позволяет более точно задать запрос Возможность фильтрации, сортировки 2

ПРИМЕР 3

ПРИМЕРЫ ЗАПРОСОВ черная икра в ресторане с караоке около кремля гостиница с бассейном около киевской комплексная мойка в выхино преображенская площадь бассейн 50 метров банкомат с долларами рядом с пушкинской 4

ПОДХОДЫ К СБОРУ ДАННЫХ Полуавтоматический (+) Универсальность (+) Гибкость (-) Временные затраты (-) Участие человека Автоматический (-) Не для каждого сайта (+) Быстро (+) Дешево 5

ПОЛУАВТОМАТИЧЕСКИЙ СБОР Свести к минимуму человеческое участие Легкость реализации Простота поддержки Никаких RegExp, XPath 6

ИДЕЯ 7 Класс (предметная область) Шаблон (специфика сайта) +

КЛАСС Описывает структуру предметной области Похож на ООП класс Набор правил, как эту структуру обрабатывать и валидировать, нормализовывать 8

ПРИМЕР КЛАССА Товар интернет магазина 9 Наименованиеstring Ценаprice Категорииcategories Наш артикулreference

ПРИМЕРЫ ТИПОВ price 1 000,10р. -> ,000,000 рублей -> address Пушкинская -> Москва, Пушкинская площадь; lat: , lon: , 10

ПРИМЕР ШАБЛОНА 11 Средние временные затраты на 1 шаблон: минут

РЕЗУЛЬТАТ РАБОТЫ ШАБЛОНА Данные структурированы, провалидированы, нормализованы Удалены дубли Есть diff по сравнению с предыдущими данными Мониторинг «отвалившихся» шаблонов 12

ВОЗМОЖНОСТИ ПОИСКА Разбор запроса Поддержка морфологии и транслита Неверная раскладка клавиатуры «Возможно, вы имели в виду» Фасеты Фильтрация, сортировка, группировка Гео-поиск 13

РЕАЛИЗАЦИЯ Работает на базе Apache Solr Разная структура документа в зависимости от предметной области Можно гибко настраивать правила индексации через метаданные класса Отдельный индекс для анализа запроса 14

СПАСИБО! Минченков Павел Метахаус