Поиск фотографий по содержанию Алексей Явлинский Аспирант университета Imperial College London, Великобритания.

Презентация:



Advertisements
Похожие презентации
Анализ данных Введение в информационный поиск. План оставшихся лекций 1.Введение в информационный поиск 2.Нормализация и извлечение информации из текста.
Advertisements

Один из видов презентации на компьютере это набор слайдов, которые можно выводить последовательно друг за другом. Часто такое компьютерное произведение.
Расширенный поиск Алгоритм расширенного поиска в сети интернет.
УЧИТЕЛЬ ИНФОРМАТИКИ ХАХУЛИНА И.Н. МОУ СОШ 3 Поисковые системы.
Информационно-поисковые системы. Сычев А.В г. 1 Спамдексирование Воронежский государственный университет Факультет компьютерных наук Кафедра информационных.
Классификация, кластеризация и поиск изображений на основе низкоуровневых характеристик Наталья Васильева Руководитель: Новиков Б. А.
Базы данных База данных – это информационная модель, позволяющая в упорядоченном виде хранить данные о группе объектов, обладающих одинаковым набором.
Распознавание частей человеческого тела на сериях изображений Котков Е. Таланов П. Терентьев А. 3057/2 Выполнили:
Информационно- поисковые машины и системы.. Поисковая машина комплекс программ, предназначенный для поиска информации. Обычно является частью поисковой.
3.1. Назначение онтологий. Информационный поиск..
Использование AJAX для асинхронной передачи данных. Что такое AJAX. Как использовать. В чем преимущество. Примеры использования на крупных сайтах. Выполнила:
Поиск информации в сети Интернет Катерина Ефимова «Информационная эвристика» НБ УрГУ.
Понятие о базовых сетях. Способы создания сетей Глава 2 Исследуя Всемирную Паутину.
Презентация разработана Студенткой группы ПИ-1 Гукасовой А.С.
Пополнение информационных ресурсов Интернета происходит высокими темпами, и найти необходимую информацию становиться всё труднее.
Эффективное решение для поиска в интернете
ИСПОЛЬЗОВАНИЕ ТЕХНОЛОГИЙ ВЕБ 2.0 (БЛОГ, ВИКИ, СОЦИАЛЬНЫЕ ЗАКЛАДКИ) В ПРЕПОДАВАНИИ ИНОСТРАННЫХ ЯЗЫКОВ учитель английского языка МБОУ СОШ 4 Козырева Марина.
Глушкин Александр Представляет. Графические и табличные информационные модели Презентация.
База данных ACCESS. Основные понятия База данных (БД) организованная совокупность данных, предназначенная для длительного хранения во внешней памяти компьютера.
Транксрипт:

Поиск фотографий по содержанию Алексей Явлинский Аспирант университета Imperial College London, Великобритания

План презентации Сегодня мы поговорим о том Как работают поисковики фотографий в интернете В чем проблема нынешних методов поиска Как анализ содержимого образов может быть полезен для решния этой проблемы Какие есть существующие методы анализа образов Как работает наш метод И увидим прототип поисковика образов в Интернете, который применяет наш метод анализа (Behold)

Фотографии везде Flickr Страницы интернета в целом Ваша личная фото-коллекция Youtube

Организация фотографий В Вашей личной коллекции: наименование файлов На Flickr: тегировка На WWW: непросто Индекс Google насчитывает более миллиарда образов Пользователи не делают аннотации своих фотографий вручную

Интернет-поисковик фотографий Должен угадать что в каждом образе Нынешний способ: ассоциированние фотографии с текстом содержащей ее веб-страницы

sunset_boat.jpg

Сложности нынешнего подходa Аннотации вынимаются из страниц и имен файлов автоматически -> частые ошибки Иногда страницы не содержат никакой информации Некоторые страницы не упоминают очевидные вещи Прим.: фотография роз отмечена как любовь, но слово цветы не упоминается Дополнительный, автоматический метод прогнозированния содержимого фотографий был бы полезен!

Поиск в Google: flower Botanical-flower-press.jpgbf_img_flower_water.gifFlowerPower_vF.jpg Избранные плохие результаты

Автоматический анализ содержимого фотографий Прогноз: автомобиль, асфальт, трава Заметьте: поскольку это статистический прогноз, иногда он будет ошибочным Непомеченный образ Извлечение важных Визуальных параметров образа Применение статистической модели к этим параметрам для прогноза содержимого

Расчет статистической модели для категории образов x ~100 Собираем большое количество образов данной категории Извлекаем важные визуальные параметры каждого образа Статистически рассчитываем типичные параметры для данной категории -- это наша модель Ошибочность прогноза будет зависеть от сложности выбранной категории образов

Подходы к извлечению визуальных параметров Сегментация Автоматически расчлененяем образ на части, анализируем каждую отдельно Обнаружение обьекта Фиксируем специфическую конфигурацию пикселей Анализ образа целиком (глобальный метод) Используем все содержимое образа вместе Каждый метод требует отдельный тип статистического моделирования Сотни академическх публикаций на эту тему

Сегментация образа Средний цвет: зеленый (RGB 0, 200, 0) Ориентация текстуры: неравномерная Тип текстуры: мелкий Размер сегмента: большой Средний цвет : оранжевый (RGB 255, 128, 0) Ориентация текстуры: вертикальная Тип текстуры: крупный Размер сегмента: средний Алгоритм Region growing

Прогноз слов на основе визуальных параметров Рассчитать таблицу перевода между сегментами и словами Это можно сделать статистически, максимизируя вышеуказанную функцию на сегментах аннотированных фотографий Используем параметры функции как модель для прогноза слов для сегментов неаннотированных фото Детали подхода в Duygulu et al. -- Object recognition as machine translation, European Conference on Computer Vision, 2002

Прогноз слов для сегментов неподписанного образа

Проблемы с сегментацией Пока нет общего решения проблемы точной сегментации образов Процесс обработки образов методом сегментации занимает много времени Требуется значительная нагрузка на вычеслительные ресурсы для обработки больших объемов фотографий

Обнаружение объекта Рассчитываем как объект должен выглядеть в образе на уровне пикселей (модель объекта) Ищем конфигурации пикселей в неаннотированных образах соответсвующие нашей модели Пример: обнаружение лиц

Обнаружение лиц Собираем большую базу данных из образов выделенных лиц, и образов лиц не содержащих Используем статистический алгоритм чтобы найти самую информативную конфигурацию пикселей для обнаружения наличия лица

Обнаружение лиц (2) Сканируем пиксели новой фотографии на предмет их совпадения с моделью лица Дополнительная информация в Viola and Jones, 2001

Проблемы с методами обнаружения объектов Для рассчета пиксельных моделей объектов требуется большое количество образов с четко выделенным расположением объекта в каждом образе Создание такой базы фотографий -- трудоемкая работа Алгоритмы обычно обнаруживают объекты в определенных ракурсах, например, в профиль или в фас, но не под углом

Наш подход: анализ образа целиком Не применяем сегментацию Аннотации фотографии прогнозируются на основе распределения визуальных параметров образа Эти параметры могут быть простыми, например, распределение цвета или текстуры Именуем подход: глобальный анализ образов Преимущества: быстрый и простой анализ содержимого фотографий

Глобальный подход: мотивировка Оригинал Цвет Текстура

Аннотация образов через глобальный анализ Моделируем процесс аннотации как p(w|x) - вероятность аннотации w при визуальных параметрах x Нужно найти функцию для каждой категории аннотаций (слова) Рассчитываем эту функцию непараметрической аппроксимацией Парцена: Используя n образов содержащих аннотацию w в нашей аннотированной базе данных Применяем первую модель к визуальным параметрам неаннотированных фотографий для прогнозированния слов Дополнительная информация в Yavlinsky, Schofield, Rueger, Conference on Image and Video Retrieval, 2005

Визуальные параметры Локализованный цвет CIELab colour (3 канала) в 9 равных частях образа Текстура Gabor wavelets - набор из 24 фильтров

Применения Поиск неаннотированных фотографий через текстовые запросы Улучшение качества поикса образов существующих интернет-поисковиков, например, Google Image Search Организация неаннотированных фотографий в Вашей персональной фото-коллекции Автором разработан поисковик на основе глобального анализа образов: Вы можете со мной связаться:

Спасибо! Вопросы?

Ссылки и публикации Сайт автора: Публикации упомянутые в презентации (детали подхов, оценки точности и т.д.): P Duygulu, K Barnard, N de Fretias, and D Forsyth. Object recognition as machine translation: Learning a lexicon for a fixed image vocabulary. In Proceedings of the European Conference on Computer Vision, pages 97–112, P Viola and M Jones. Rapid object detection using a boosted cascade of simple features. In International Conference on Pattern Recognition, pages 511–518, A Yavlinsky, E Schofield, and S Ruеger. Automated image annotation using global features and robust nonparametric density estimation. In Proceedings of the International Conference on Image and Video Retrieval, pages 507–517, 2005.