Санкт-Петербургский государственный университет информационных технологий, механики и оптики Санкт-Петербург 2009 Санкт-Петербургский государственный университет.

Презентация:



Advertisements
Похожие презентации
Санкт-Петербургский государственный университет информационных технологий, механики и оптики Санкт-Петербург 2009 Санкт-Петербургский государственный университет.
Advertisements

Принципы адаптации вычислительных алгоритмов под параллельную архитектуру графических акселераторов С.М.Вишняков научный руководитель: д.т.н. А.В.Бухановский.
Принципы адаптации вычислительных алгоритмов под параллельную архитектуру графических акселераторов С.М.Вишняков научный руководитель: д.т.н. А.В.Бухановский.
Особенности адаптации вычислительных алгоритмов под параллельную архитектуру графических акселераторов С.В. Ковальчук, С.М. Вишняков, А.С. Мордвинцев НИИ.
2006 Методы и параллельные алгоритмы идентификации моделей сложных систем. Санкт-Петербургский Государственный университет информационных технологий, механики.
Применение генетического программирования для реализации систем со сложным поведением Санкт-Петербургский Государственный Университет Информационных Технологий,
Докладчик: Бульёнов А. В., аспирант Научный руководитель: Шалыто А. А., д. т. н., профессор, зав. кафедрой КТ Методы автоматного программирования в разработке.
РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ МОДЕЛИРОВАНИЯ КОНКУРЕНТНОГО РЫНКА НА КЛАСТЕРНЫХ СИСТЕМАХ Авторы: Е.В. Болгова, А.С. Кириллов, Д.В. Леонов Научный.
ЕМЕЛЬЯНЧЕНКО Наталья Сергеевна МОДЕЛИ И АЛГОРИТМЫ ДЛЯ ЗАДАЧ ТЕОРИИ РАСПРЕДЕЛЕНИЯ РЕСУРСОВ БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФАКУЛЬТЕТ ПРИКЛАДНОЙ.
ПАРАЛЛЕЛЬНАЯ ФИЛЬТРАЦИЯ ИЗОБРАЖЕНИЙ Фурсов В.А., Попов С.Б. Самарский научный центр РАН, Самарский государственный аэрокосмический университет, Институт.
1 Акустоэлектрические преобразования в электронных устройствах, как канал утечки информации Аспирант: Мошников Е.А. Научный руководитель: Зайцев А.П.,
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
ОПТИМАЛЬНОЕ НЕПРЯМОЕ УПРАВЛЕНИЕ ЛИНЕЙНЫМИ ДИНАМИЧЕСКИМИ СИСТЕМАМИ Белорусский государственный университет Факультет прикладной математики и информатики.
Сравнительный анализ различных реализаций фильтра Гаусса.
Система информационного обеспечения подготовки игрока М. Н. Царев 2008 год.
Петрозаводский Государственный Университет Разработка информационной системы по оценке объемно-планировочной структуры традиционных поселений северных.
Многометодные процедуры оптимального управления Архитектура и реализация программного комплекса Исследовательский Центр процессов управления Работа выполнена.
Этапы моделирования. Определение цели моделирования, выделение существенных для исследования параметров объекта. I. Построение описательной информационной.
Алгоритмизация и требования к алгоритму Алгоритм и алгоритмизация Алгоритм и алгоритмизация.
Выполнили: Мартышкин А. И. Кутузов В. В., Трояшкин П. В., Руководитель проекта – Мартышкин А. И., аспирант, ассистент кафедры ВМиС ПГТА.
Транксрипт:

Санкт-Петербургский государственный университет информационных технологий, механики и оптики Санкт-Петербург 2009 Санкт-Петербургский государственный университет информационных технологий, механики и оптики Принципы адаптации вычислительных алгоритмов под параллельную архитектуру графических акселераторов С.М.Вишняков научный руководитель: д.т.н., профессор А.В.Бухановский

Актуальность работы 2009Научно-исследовательский институт наукоемких компьютерных технологий 2 BrookGPU (2004) Sh Lib ( ) ATI CTMl/FireStream SDK (2007) nVidia CUDA (2007) OpenCL (2008) Преимущества CUDA: абстрагирование от терминологии компьютерной графики; SDK разрабатывается производителем «железа»; поддержка высокопроизводительных HPC-акселераторов (Tesla).

Цель и задачи работы 2009Научно-исследовательский институт наукоемких компьютерных технологий 3 Изучение особенностей отображения вычислительных алгоритмов на GPU-архитектуру, выявление ряда факторов, влияющих на получаемую производительность и исследование их влияния Изучение средств отображения алгоритмов на архитектуру графических акселераторов и выбор актуальных алгоритмов, на примерах которых изучаются особенности GPU-архитектуры Отображение выбранных алгоритмов на архитектуру графических акселераторов Анализ параллельной производительности, изучение влияния особенностей архитектуры на получаемую производительность

Архитектура GPU и отображение вычислительных задач Научно-исследовательский институт наукоемких компьютерных технологий 4 Перенос алгоритма на GPU: Выделение вычислительного ядра Загрузка данных в GPU Определение конфигурации ядра и запуск 2009 Отличия от традиционных архитектур: SIMT-подход Трудоемкие обращения к памяти Ограничения на использование ветвящихся конструкций Ограничения на коммуникацию между потоками

Пример 1: спектры климатического волнения 2009Научно-исследовательский институт наукоемких компьютерных технологий Аппроксимация нелинейной функции нескольких аргументов – оптимизация методом линейного случайного поиска Представление спектра Метод адаптивного случайного поиска с линейной тактикой 5 Научно-исследовательский институт наукоемких компьютерных технологий Исходный Аппроксимация

Пример 2: выделение особых точек на изображении – SIFT Научно-исследовательский институт наукоемких компьютерных технологий 6 Применение: Склейка аэрофотосъемки Поиск образов в БД Ключевые этапы алгоритма: Построение последовательности фильтров Гаусса для изображения Поиск и уточнение экстремумов в пирамиде Вычисление ориентации особых точек Вычисление дескрипторов особых точек 2009

Параллельная реализация аппроксимации спектров Научно-исследовательский институт наукоемких компьютерных технологий 7 Распараллеливание по данным Каждый поток GPU-устройства рассчитывает значение целевой функции для собственного спектра Распараллеливание вычисления целевой функции Вычисление целевой функции для одного спектра распараллеливается между всеми потоками Распараллеливание вычисления целевой функции в пределах блока потоков Каждый блок потоков рассчитывает значение целевой функции для собственного спектра 2009

Параллельная реализация алгоритма SIFT Научно-исследовательский институт наукоемких компьютерных технологий Особенности параллельной реализации Ручное кэширование данных в разделяемой памяти при построении фильтра Гаусса и поиске экстремумов Использование атомарных операций (CC 1.1) Выравнивание данных для более эффективного доступа к ним

Полученные результаты 9 Научно-исследовательский институт наукоемких компьютерных технологий A – распараллеливание по данным, B – распараллеливание подсчета целевой функции внутри блока, C – распараллеливание подсчета целевой функции на все потоки От каких параметров зависит эффективность параллельной реализации?

Зависимость производительности от конфигурации ядра 10 Научно-исследовательский институт наукоемких компьютерных технологий2009 Как выбрать оптимальную конфигурацию ядра?

Модель производительности Структура модели: 11 Научно-исследовательский институт наукоемких компьютерных технологий2009 Линейно изменяются все части, кроме T kernel

Модель производительности 12 Научно-исследовательский институт наукоемких компьютерных технологий2009 workPerThread – параметр вычислительного ядра mWarps – параметр архитектуры warpsPerMP, t0, occupancy – зависят от конфигурации ядра, через эту зависимость можно выбрать оптимальную конфигурацию

Полученные результаты 13 Научно-исследовательский институт наукоемких компьютерных технологий2009

14 Результаты Предложены и реализованы различные способы адаптации исследуемых алгоритмов к архитектуре графических акселераторов, получено существенное ускорение На примере исследуемых алгоритмов рассмотрено влияние различных особенностей архитектуры на получаемую производительность Предложена модель производительности, описывающая зависимость времени работы от конфигурации ядра для задач, использующих распараллеливание по данным Факультет информационных технологий и программирования2009

15 Выводы Полученные реализации исследуемых алгоритмов свидетельствуют о целесообразности применения графических акселераторов для решения подобных задач Обращая внимание на рассмотренные особенности архитектуры, можно увеличить получаемую производительность в несколько раз Предложенная модель производительности упрощает выбор оптимальной с точки зрения производительности конфигурации ядра Факультет информационных технологий и программирования2009

Запасной слайд 1 Научно-исследовательский институт наукоемких компьютерных технологий 17 Распараллеливание по данным Распараллеливание подсчета целевой функции 2009

Запасной слайд 2 Научно-исследовательский институт наукоемких компьютерных технологий Зависимость t0(blockSize) и ее теоретический вид (а), зависимость occupancy(blockSize) (б)

Запасной слайд 3 Научно-исследовательский институт наукоемких компьютерных технологий t 0 – «эффективное» время работы одного блока, которое вычисляется как время работы ядра при полной загрузке мультипроцессора перед насыщением (фактически – высота первой ступени графика), отнесенное к числу элементарных операций, выполняемых одним потоком; N – общее число элементарных операций, выполняемых ядром; workPerThread – число элементарных операций, приходящихся на один поток; warpsPerMP – количество основ, приходящихся на один мультипроцессор при данной конфигурации ядра.