Разработка информационного агента (робота) информационно-поисковой системы для сбора информации в сети Интернет Малков Владимир.

Презентация:



Advertisements
Похожие презентации
Языки и методы программирования Преподаватель – доцент каф. ИТиМПИ Кузнецова Е.М. Лекция 7.
Advertisements

Задачи проектирования ИПС: Анализ предметной области Определение структуры ИПС Определение видов поиска документов в ИПС Разработка структуры БД для ИПС.
Базы данных Лекция 01 Информационные технологии баз данных.
Независимо от того, в какой отрасли знания получены числовые данные, они обладают определенными свойствами, для выявления которых может потребоваться особого.
Разработка программного комплекса для решения некоторых задач формирования производственных групп БУШИНСКИЙ Сергей Дмитриевич Омский государственный технический.
Основные информационные процессы Информация и информационные процессы.
Моделирование и исследование мехатронных систем Курс лекций.
ГОРОДСКОЙ МЕТОДИЧЕСКИЙ ЦЕНТР mosmetod.ru Примерная программа учебного предмета «Информатика»
Ситуационный центр ПРОТЕЙ для Системы-112: опыт внедрения на примере системы 112 г.Курска и Курской области.
1 Исследование алгоритмов решения задачи k коммивояжеров Научный руководитель, проф., д.т.н. Исполнитель, аспирант Ю.Л. Костюк М.С. Пожидаев Томский государственный.
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ЭКОНОМИКЕ Тема 2. ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ОБРАБОТКИ ДАННЫХ Подготовил Иванов А.Н.
Выпускная работа по «Основам информационных технологий» Гуд Игорь Анатольевич Руководитель: доцент Стрикелев Дмитрий Александрович Руководитель: доцент.
Оценка сложности алгоритмов Предметная область : информатика Выполнил: Еловских Роман Ученик 11 А класса.
Построение поисковых индексов Автор: Елисафенко М.Е. гр
Докладчик – Альперин Борис NOT ONLY SQL NOSQL 1. Различные модели представления информации: иерархическая, сетевая, реляционная, объектная, … Реляционная.
Многометодные процедуры оптимального управления Архитектура и реализация программного комплекса Исследовательский Центр процессов управления Работа выполнена.
WELCOME! Правиль ный ответ Вариант 1 Вариант 2 Критерии оценивания Задача 1 3 бита 32 ученика3 задачи – оценка «5» 2 задачи – оценка «4» 1 задача – оценка.
1 Информационные системы в экономике Информационное обеспечение.
ИССЛЕДОВАНИЕ МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА РЕСУРСОВ В ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ РЕСПУБЛИКИ КАРЕЛИЯ Выполнил : студент 3 курса, гр , Банкет Вячеслав.
Транксрипт:

Разработка информационного агента (робота) информационно-поисковой системы для сбора информации в сети Интернет Малков Владимир

Введение Экспоненциальные темпы роста объемов информации Поиск информации –Отсутствие универсальных методов –Необходимость разработки новых методов и инструментов поиска информации –Сбор данных - неотъемлемый этап работы системы поиска информации

Постановка задачи Сбор информации Распределенная, масштабируемая отказоустойчивая система ИА с центральным удаленным хранилищем Предварительная обработка документов с помощью дополнительных модулей

Постановка задачи (2) Требования к ИА –Взаимодействие с БД по TCP/IP –Экономное потребление ОЗУ –Переносимость Модуль лексический анализа документов –Вход: текст документа –Идентификация лексем по словарю ЕЯ –Формирование списка лексем-кандидатов для неизвестных лексем –Выход: мета-такст

О взаимодействии с БД?

Решение задач лексического анализа Вход: лексема-запрос Поиск –Известные лексемы (car->recordID): поиск точными методами –Неизвестные лексемы (kyboard- >{keyboard, cyborg}; ) Мера близости для выявления «похожих» лексем в словаре

Поиск по подобию (ПП) Метризация пространства поиска –Множество поиска - лексемы словаря системы –Метрика Левенштейна (как один из вариантов меры близости лексем!) –Поиск на базе вычисления метрики По диапазону {1,k} Ближайших соседей Нижняя оценка трудоемкости задачи и существование эффективных методов поиска – открытые проблемы

Пути оптимизации ПП Учитывать характер объектов МП –Дискретная метрика –Ограниченный диаметр множества поиска –BK-дерево как базовый метод (Burkhard-Keller) Равномерное наполнение поддеревьев Остановка на точном совпадении Оптимизировать вычисление метрики нельзя: черный ящик для гибкости меры близости Сократить количество вызовов метрики Минимизация операций ПП на основе специфики входных данных задачи

Результаты предварительного анализа текстов

Алгоритм распознавания лексем Вход: лексема 1.Точный поиск в хеш-таблице 2.Распознавание неизвестных лексем a.Точный поиск в кеше результатов ПП на тернарном дереве поиска b.Поиск в BK-дереве только первого вхождения неизвестной лексемы и сохранения результата в кеш Поисковые структуры данных строить над общим словарем

Результаты (1)

Результаты (2)

Результаты (3) Задача распознавания лексем сведена к поиску в МП Минимизировано количество обращений к процедуре приближенного поиска Реализован ИА

Заключение Методы поиска в МП имеют большое практическое значение Дальнейшие исследования –Удаление СНЛ –Предварительная оценка релевантности –Учет морфологии ЕЯ –Методы ПП

Спасибо за внимание

Пример мета-текста

Грамматика мета-текста

Графики всех замеров крупно

UML диаграммы

BK-дерево

Тернарное дерево

Хеш-таблица

Схема БД

Доступ ИА к БД