Geocoding – методы получения гео-координат из новостных потоков Выполнил: Баклыков Денис Григорьевич Научный руководитель: Намиот Дмитрий Евгеньевич
Известные аналоги Яндекс.Новости Lenta.ru GeoNames.org – База данных гео-объектов – 8 миллионов записей Yahoo GeoPlanet – Поиск гео-объектов по критериям – Альтернативные названия 2
Требования к системе Выявление описания гео-объектов в новостных потоках (RSS, Atom) Прозрачная конвертация RSS лент в GeoRSS Обеспечение высокой производительности системы 3
Трудности реализации Сложность обработки данных – большой размер БД, нагрузка на сервер Нет открытых алгоритмов поиска гео-объектов Поддержка множества подписчиков Нет единой базы гео-объектов Различные варианты названия гео-объектов 4
Исходные данные 5 КЛАДР Метро Неофиц. Названия Яндекс Карты БД гео-объектов Нижний угол Верхний угол Центр
Архитектура Распределённая система База данных – Гео-объекты, альтернативные названия – Исторические данные новостных потоков Кластеризация системы – Горизонтальная – дополнительные «ноды» – Вертикальная – наращивание мощности сервера 6
Реализация 7
Определение гео-объектов по маске Пример: Ключевые слова для поиска: Маска: Результат поиска: 8 В честь для факультета ВМК, студенческий парад прошёл от метро Университет до улицы Лебедева улица, площадь, проспект, набережная, бульвар, просек, переулок, шоссе, аллея, тупик, холм, проезд, район, метро (.*?) (улиц*|ул\.) (.*?) = все словосочетания, в которых встречается слово «улица», либо «ул.» Метро Университет, улица Лебедева
Определение гео-объектов по словарю Пример с предлогом: Без предлога: Маска: Результат: 9 Неглинная за последние 10 лет очень сильно изменилась ([А-Я]{1}[а-я]*) = все слова, начинающиеся с заглавной буквы На Тверской стояли десятки военных машин, ожидая команды начала парада Тверской, Неглинная
Заключение Реализована система, позволяющая: – Определять около 90% гео-объектов – Скорость обработки текста ~ 10KB/s (на 1 узле) Адрес проекта: geo-rss-demo.appspot.com Дальнейшее развитие – Поиск по области – История новостей в заданной области 10
Спасибо за внимание! Ваши вопросы 11 Денис Баклыков