Geocoding – методы получения гео-координат из новостных потоков Выполнил: Баклыков Денис Григорьевич denis.baklikov@gmail.com Научный руководитель: Намиот.

Презентация:



Advertisements
Похожие презентации
Примеры обработки информации (Алгоритмы) Примеры обработки информации (Алгоритмы)
Advertisements

1 Работу выполнил Бильчук Александр Александрович Очно-заочная форма обучения Научный руководитель: к. ф.-м. н., с.н.с. лаб. ОИТ Намиот Д.Е. Москва 2011.
Нижегородский государственный университет им. Н.И. Лобачевского Факультет вычислительной математики и кибернетики Учебно-исследовательская лаборатория.
НАЗВАНИЕ Работу выполнил: ст. 4 курса ФИО Научный руководитель: Должность, ФИО Г. Пермь, 2009 ГОУ ВПО Пермский государственный университет Физический факультет.
Система кластеризации мульти-язычных данных большого объема Студентка: Нишневич Анастасия, 545 гр. Научный руководитель: Изъюров А.Л. Рецензент: Шалымов.
П О И С К О В Ы Е П О И С К О В Ы Е СИСТЕМЫ СИСТЕМЫ.
EDCWiki Electronic Document Circulation using wiki Система электронного документооборота на основе wiki Участники: Кузьмин К.А., Цыцулин В. И. Руководитель:
МБРР информер - приложение для iPhone Вадим Башуров.
Дипломная работа Информационно- вычислительная система управления документооборотом деканата ВУЗа Научный руководитель: ассистент Трофимов Иван Евгеньевич.
Алгоритм приближённого joinа на потоках данных Выполнил : Юра Землянский, 445 группа Научный руководитель : Б.А. Новиков СПб, 2011 Санкт-Петербургский.
2 Разработка электронной версии журнала «Студенческая аудитория» (Миграция) Докладчик: Максимова Марина Сергеевна Руководитель проекта: к.т.н. Королёв.
Обеспечение качества данных в информационных системах Дмитрий Шушкин, Руководитель направления корпоративных проектов, ABBYY Россия Дмитрий Шушкин, Руководитель.
Разработка автоматизированной системы визуализации рабочих станций для Clearwire LLC Научный руководитель, ассистент Консультант, профессор, д.т.н. Исполнитель,
Веб 2.0 сайт для поддержки виртуального мира Студент: Наумов Василий, ПС-52 Научный руководитель: Танаков Андрей Игоревич.
Элементы города. БУЛЬВАРЫ Бульвар улица со скамейками, газонами и аллеями, предназначенным и для пешеходного движения и кратковременного отдыха Бульвар.
Москва – столица России. Рождение Москвы Когда родилась Москва? Когда родилась Москва? 4 апреля 1147 года – день рождения города. Тогда суздальский князь.
Абрамович Максим, 545 группы Научный руководитель: Тузов Виталий Алексеевич Морфологический анализ русского языка.
Автоматическое составление обзорного реферата на основе кластеризации предложений Гнездилов Дмитрий, гр. 524 Научный руководитель к.ф.-м.н., с.н.с. НИВЦ.
Разработка высоконагруженных проектов (например – сайтов для сообществ) Олег Бунин.
Фонтан около устья Ушайки Фонтан на площади Новособорной.
Транксрипт:

Geocoding – методы получения гео-координат из новостных потоков Выполнил: Баклыков Денис Григорьевич Научный руководитель: Намиот Дмитрий Евгеньевич

Известные аналоги Яндекс.Новости Lenta.ru GeoNames.org – База данных гео-объектов – 8 миллионов записей Yahoo GeoPlanet – Поиск гео-объектов по критериям – Альтернативные названия 2

Требования к системе Выявление описания гео-объектов в новостных потоках (RSS, Atom) Прозрачная конвертация RSS лент в GeoRSS Обеспечение высокой производительности системы 3

Трудности реализации Сложность обработки данных – большой размер БД, нагрузка на сервер Нет открытых алгоритмов поиска гео-объектов Поддержка множества подписчиков Нет единой базы гео-объектов Различные варианты названия гео-объектов 4

Исходные данные 5 КЛАДР Метро Неофиц. Названия Яндекс Карты БД гео-объектов Нижний угол Верхний угол Центр

Архитектура Распределённая система База данных – Гео-объекты, альтернативные названия – Исторические данные новостных потоков Кластеризация системы – Горизонтальная – дополнительные «ноды» – Вертикальная – наращивание мощности сервера 6

Реализация 7

Определение гео-объектов по маске Пример: Ключевые слова для поиска: Маска: Результат поиска: 8 В честь для факультета ВМК, студенческий парад прошёл от метро Университет до улицы Лебедева улица, площадь, проспект, набережная, бульвар, просек, переулок, шоссе, аллея, тупик, холм, проезд, район, метро (.*?) (улиц*|ул\.) (.*?) = все словосочетания, в которых встречается слово «улица», либо «ул.» Метро Университет, улица Лебедева

Определение гео-объектов по словарю Пример с предлогом: Без предлога: Маска: Результат: 9 Неглинная за последние 10 лет очень сильно изменилась ([А-Я]{1}[а-я]*) = все слова, начинающиеся с заглавной буквы На Тверской стояли десятки военных машин, ожидая команды начала парада Тверской, Неглинная

Заключение Реализована система, позволяющая: – Определять около 90% гео-объектов – Скорость обработки текста ~ 10KB/s (на 1 узле) Адрес проекта: geo-rss-demo.appspot.com Дальнейшее развитие – Поиск по области – История новостей в заданной области 10

Спасибо за внимание! Ваши вопросы 11 Денис Баклыков