Гибкий web-crawler Дизайн и разработка Артём Курапов.

Презентация:



Advertisements
Похожие презентации
Система управления дистанционным обучением. Что такое Moodle? Представляет собой свободное веб-приложение, предоставляющее возможность создавать сайты.
Advertisements

Предпосылки формирования нового подхода к проектированию динамических ресурсов всемирной паутины ацп. Кейно П.П. Научный руководитель: проф., к.т.н. Силуянов.
ПОРТАЛЬНЫЕ РЕШЕНИЯ Облачные технологии управления.
Администрирование СДО Moodle. Функции администратора Редактирование настроек сайта Добавление/Удаление/Редактировани е пользователей Назначение преподавателей/создателя.
"Анализ ресурсов зарубежных образовательных порталов и формирование предложений по оценке их качества" М.И. Нежурина - проф., к.т.н., директор ЦДО МИЭМ,
Использование MySQL в сервисе дневников LiveInternet.ru Практика, практика, практика Гурьянов Андрей, программист Новиков Лев, системный администратор.
Перспективы применения технологии Java Server Pages при разработке web-интерфейса для доступа к базам данных Выпускная квалификационная работа на степень.
Разработка автоматизированной системы расписания занятий учебного заведения Баранок А.В. Группа ПМ-16.
Реализация концепции построения и формирования отраслевой системы государственного учета, регистрации и мониторинга (ОСГУРМ) информационных ресурсов сферы.
Торговая площадка 1 Общая концепция. Основной процесс: Основной бизнес-процесс торговой площадки представляет собой следующие шаги: Создание списка торгов(аукционов)
Работа, направленная на решение конкретной проблемы, на достижение оптимальным способом заранее запланированного результата. Работа, направленная на решение.
1 Учебный курс Введение в HTML и CSS Лекция 1 История развития технологий Всемирной Сети и основные инструменты.
Системы обработки вызовов Службы Скорой Медицинской помощи 03 Новосибирск.
Расширение интерфейсных возможностей Московец Олег Александрович, Ведущий аналитик ЦИТК «Парус»
Разработка информационного агента (робота) информационно-поисковой системы для сбора информации в сети Интернет Малков Владимир.
Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики Кафедра компьютерных образовательных технологий.
Задачи проектирования ИПС: Анализ предметной области Определение структуры ИПС Определение видов поиска документов в ИПС Разработка структуры БД для ИПС.
Объектные СУБД Поисковые технологии Специализированные ИПС и Web-сервисы Лингвистический и семантический анализ текстов документов НПЦ «ИНТЕЛТЕК ПЛЮС»
1 Метод проектов В образовательном процессе. 2 «Я знаю, для чего мне надо все, что я познаю. Я знаю, где и как смогу это применить»
Инициализация проектов в ИС и планирование себестоимости проектов Ловыгин Василий ведущий эксперт Центра информационных технологий и консалтинга ПАРУС.
Транксрипт:

Гибкий web-crawler Дизайн и разработка Артём Курапов

Схема доклада Введение. Объект и цель исследования. Способы решения проблемы. Алгоритмы индексации и упрядочивания данных. Взгляды на выборку, перепросмотр и распределение нагрузки. Проделанная работа. Особенности и жертвы разработки. Заключение и выводы.

Web-crawler это.. Инструмент для разных целей Основная цель – сбор данных для поиска по ним Косвенные цели – анализ документов в целом

Кому и для чего это надо? Web-мастерам среднего уровня со знаниями основ LAMP (для образования) Аналитикам, администраторам, архитекторам (для планирования) Создателям информации (для сбора фактов)

Сбор данных Индексация вручную (copy-paste). Рутинная работа. Автоматическая индексация. Основная проблема – алгоритм индексации. Оценка полученных данных для дальнейшего отображения

Алгоритмы индексации дерева Наивный Breadth-first Depth-first Uniform-cost

Ограничения индексации Необходимы из-за физических ограничений сервера в случае неизвестного числа документов Естественное ограничение – новые технологии flash, video, java applet, javascript, необходимость авторизации, captcha Настраивыемые ограничения (глубина,число документов, тип ресурсов)

Web-crawler как часть большего Selection, revisit policy Лёгкость интеграции Возможность расширения (параллелизация) за счёт многопоточности (crontab) : скорость и нагрузка Внешние системы обработки данных – video, image, audio, xml, rdf..

Проделанная работа

Добавление паука

Добавление домена

Список доменов

Взгляд изнутри MySQL 5 PHP5 Apache 2 nnCron проиндексировано 80 тыс страниц 1-2 страницы в секунду Open Source

Заключение Много алгоритмов, необходима конкретная цель Сделанный crawler – медленный, но гибкий Рост в скорости требует бОльшего проектирования баз данных. Рост в аналитике – отдельных модулей визуализации

The end

Замена PHP ASP JSP CGI Perl

PHP популярность