Разработка системы информационного поиска в базе знаний Белякова Д.Ю. Группа С-105 МИЭМ 07.06.2012 1.

Презентация:



Advertisements
Похожие презентации
Поисковые движки. Sphinx Search Engine. Докладчик: Роман Кудлай
Advertisements

Тема 11 Медицинская помощь и лечение (схема 1). Тема 11 Медицинская помощь и лечение (схема 2)
Тренировочное тестирование-2008 Ответы к заданиям КИМ Часть I.
Департамент экономического развития Ханты-Мансийского автономного округа - Югры 1.

Эффективный полнотекстовый поиск по базам данных Андрей Аксенов, Петр Зайцев Percona Ltd. shodan (at) shodan.ru.
Название системы - iTest Текущая версия Официальный сайт - Лицензия -GPL v2 Компоненты системы iTestServer серверная.
Преимущества использования полнотекстового поиска в интернет-магазинах Абумуслимов Андрей, Magento Developer, Magento Core Team.
ИД «Первое сентября». Журнал «Физика» 2/ Роза ветров 9 ИД «Первое сентября». Журнал «Физика» 2/2014.
1 Простые методы выявления сложных для Пользователя интерфейсов.
© Beeline июля 2012 г.Новая жизнь бренда «Билайн»1.

В гостях у смешариков. Уважаемые ребята случилось несчастье! 3 Все герои потерялись!!! Если вы правильно выполните все задания, то герои мультфильма найдут.
Обнаружение уязвимостей в web- приложениях, написанных на Python, средствами динамического анализа исходных кодов Заливин Д.А. Козлов Д.Д. Петухов А.А.
Типовые расчёты Растворы
Программная система «Портал научной группы» (разработано в рамках ПНР-5) 24 марта 2011 г. Челябинск Южно-Уральский государственный университет 1.
Ф. Т. Алескеров, Л. Г. Егорова НИУ ВШЭ VI Московская международная конференция по исследованию операций (ORM2010) Москва, октября 2010 Так ли уж.
Маршрутный лист «Числа до 100» ? ? ?
БД (администрирование) 1 Базы данных (администрирование) Аблов Игорь Васильевич Кафедра информационных технологий.
Вариант Презентация "Осень золотая".
Транксрипт:

Разработка системы информационного поиска в базе знаний Белякова Д.Ю. Группа С-105 МИЭМ

Актуальность Увеличение неструктурированной информации Структурирование информации является не всегда полезным Необходимость поиска среди неструктурированных документов 2

Первичное тестирование 3

Постановка задачи Анализ методов и подходов по реализации информационного поиска Анализ поисковых движков Выявление ошибок в существующей базе знаний Внедрение данной системы в базу знаний Тестирование поисковой системы 4

Информационный поиск – это процесс поиска в большой коллекции некоего неструктурированного материала, удовлетворяющего информационной потребности. Критерии поиска: 5

Понятие веса F – функция, показывающая отвечает ли документ поисковому запросу. s i – величина, показывающая встречает ли данный термин в документе. g i – вес документа. 6

Понятие веса F=0.2* * *1 = 0.8 7

Основные методы Последовательный метод Булев поиск Сжатие индекса Метод ранжирования 8

Сравнение методов 9 Последовательный методБулев поиск Задача: Имеется документов. Необходимо найти среди всех документов те, заголовки которых начинаются на букву «К». Решение: Перебрать все документов и отложить документы на букву «К». Решение: Найти раздел, в котором находятся документы на букву «К».

Булев поиск Матрица «термин-документ» 10 Документ/ Термин ИдиотБедные люди Преступление и наказание Братья Карамазовы идиот1000 бедный1111 люди1111 преступление1111 икона0000 король0000

Сжатие индекса Матрица «термин-документ» 11 Документ/ Термин Документ 1 Документ 2 …Документ n Термин Термин Термин …0000 Термин (k-1)0000 Термин k0000

Сжатие индекса Словопозиция имеет вид [ ]: 12

Метод ранжирования 13 Критерии отбора/ Документ 12…nΣ … n

Обзор поисковых движков Название движка/ Параметры Sphinx com Lunece org/ Xapian Типотдельный серверотдельный сервер или встраивая библиотека встраивая библиотека ПлатформаС++/кросс- платформенный Java/кросс- платформенный С++ Поисковые возможности булевый поиск, поиск по фразам с возможностью группировки, ранжирования и сортировки результата булевый поиск, поиск по фразам, нечёткий поиск и с возможностью группировки, ранжирования и сортировки результата булевый поиск, поиск по фразам, поиск по синонимам с возможностью группировки, ранжирования и сортировки результата 14

Обзор поисковых движков Название движка/ Параметры SphinxLuneceXapian API, протоколы и языки программирова ния SQL DB (MySQL и PostgreSQL), собственный XML- интерфейс, встроенные API для РНР, Ruby, Python, Java, Perl Java APIС++, Perl API, Java JINI, Python, PHP, TCL, C# и Ruby, CGI интерфейс с XML/CSV форматом Поддержка языков встроенный английский и русский стемминг, soundex для реализации морфологии отсутствует морфология, есть стемминг (Snowball) и анализаторы для ряда языков отсутствует морфология, есть стемминг для ряда языков, реализована проверка правописания в поисковых запросах 15

Скачивание базы данных Скачать файл с настройками LocalSettings.php Скачать саму базы данных в домашнюю папку Переместить на домашний компьютер 16

Конфигурационный файл Indexer – генератор индекса Searchd – поисковый демон Search – тестовая утилита 17

Индексация запросов Indexer 18

Блок-схема работы демона Searchd 19

Результат демона 20

Модификация системы Закачать исправленный файл Остановить работу демона Удалить предыдущий файл Запустить индексатор Запустить демона 21

Тестирование системы Запуск утилиты search 22

Тестирование системы Запуск из браузера 23

Работа системы до изменений 24

Результат работы 25

Экспертная оценка 26

Выводы В результате выполнения работы были: Проведен анализ существующих решений Исправлены ошибки в поиске Данная система была модифицирована и внедрена в кафедральную базу знаний 27

Разработка системы информационного поиска в базе знаний Белякова Д.Ю. 28 Спасибо за внимание