Гибридный суперкомпьютер «МВС-экспресс» и его применение Четверушкин Б.Н. ИПМ им. М.В. Келдыша РАН.

Презентация:



Advertisements
Похожие презентации
Суперкомпьютер «УРАН» Андрей Созыкин Заведующий сектором суперкомпьютерных технологии ИММ УрО РАН Заведующий кафедрой высокопроизводительных.
Advertisements

Система в сборе 1. Кластер 2. ИБП 3. Стойка 14 U 4. Поставщик оборудования - компания Bevalex.
Санкт-Петербургский государственный университет информационных технологий, механики и оптики Санкт-Петербург 2009 Санкт-Петербургский государственный университет.
Параллельные вычисления Лекция 6. y = 3x + 7x – 8x при x = 4 y1 = 3x(1 действие) y2 = 7x(2 действие) y3 = 8x(3 действие) y = y1 + y2 – y3(4 действие)
Московский государственный университет им.М.В.Ломоносова Институт вычислительной математики РАН Воеводин В.В., Воеводин Вл.В. СУПЕРВЫЧИСЛЕНИЯ:
Высокопроизводительные вычислительные системы: применения в биологии и практические аспекты решения некоторых задач.
Исследование ускорения вычислений параллельных реализаций метода конечных элементов для уравнений мелкой воды Дементьева Екатерина.
ПАРАЛЛЕЛЬНАЯ ФИЛЬТРАЦИЯ ИЗОБРАЖЕНИЙ Фурсов В.А., Попов С.Б. Самарский научный центр РАН, Самарский государственный аэрокосмический университет, Институт.
Московский государственный университет им.М.В.Ломоносова Институт вычислительной математики РАН Воеводин В.В., Воеводин Вл.В. СУПЕРВЫЧИСЛЕНИЯ:
Адаптация комплекса программ M2DGD для работы на МВС с использованием среды параллельного программирования OST Павлухин Павел Научный руководитель: Меньшов.
Методы интерактивной визуализации динамики жидких и газообразных сред Костикова Елена Юрьевна, 521 гр. Научный руководитель: Игнатенко Алексей Викторович.
Реализация модели многочастичного газа FHP-MP на графическом ускорителе Подстригайло Алена, гр Научный руководитель: к.ф.-м.н. Калгин К.В.
V Всероссийская конференция молодых ученых А. А. Давыдов ИССЛЕДОВАНИЕ ВОЗМОЖНОСТЕЙ УСКОРЕНИЯ РАСЧЕТА ЗАДАЧ АЭРО-ГАЗОДИНАМИКИ С ПОМОЩЬЮ ВЕКТОРНЫХ СОПРОЦЕССОРОВ.
Санкт-Петербургский государственный университет информационных технологий, механики и оптики Санкт-Петербург 2009 Санкт-Петербургский государственный университет.
Центр вычислительных технологий АИЦ СВФУ. Содержание ЦВТ – Зачем? – Цели и задачи – Вычислительные кластера – Коллектив Образовательная деятельность –
Принципы адаптации вычислительных алгоритмов под параллельную архитектуру графических акселераторов С.М.Вишняков научный руководитель: д.т.н. А.В.Бухановский.
Магистрально-модульный принцип построения компьютера.
Алгоритмизация и требования к алгоритму Алгоритм и алгоритмизация Алгоритм и алгоритмизация.
Расчет турбулентных течений Проблемы расчета нестационарных переходных и турбулентных течений вязких жидкостей и газов многие годы находятся в центе внимания.
Архитектура персонального компьютера. МАГИСТРАЛЬНО-МОДУЛЬНОЕ УСТРОЙСТВО КОМПЬЮТЕРА Информационная магистраль (шина) Устройства вводаУстройства выводаДолговременная.
Транксрипт:

Гибридный суперкомпьютер «МВС-экспресс» и его применение Четверушкин Б.Н. ИПМ им. М.В. Келдыша РАН

ИПМ им. М.В.Келдыша РАН традиционно занимается разработками в области вычислительной техники: ЭВМ-Стрела, тема-Лазурь, МВС-100 и МВС Активизация нынешнего этапа работ связана с появлением в 2007 г. четырехядерных процессоров. Первые расчеты показали принципиальное отличие в использовании многоядерных процессоров от одноядерных MPI+OPEN MP особые требования к вычислительным алгоритмам – логически простые и эффективные.

Существующие типы вычислительных систем на базе четырехядерных процессоров имеют естественное ограничение по производительности ~1PFLOPS, вызванное стоимостью системы и ее энергопотреблением. Современные тенденции будут связаны с появлением процессоров со все большим количеством ядер. Вычислительные системы основанные на них обладают существенно меньшей стоимостью и энергопотреблением. Графические платы – пример существенно многоядреных процессоров.

Задача струя, набегающая на цилиндр. Совместные с ЦАГИ исследования по локализации источников шума в турбулентном следе (обтекание стоек шасси самолета) Характерное время вычислений: 26.8 сек. на шаг по времени на 64 ядрах, сек. на ядрах, нормализованное ускорение Ускорение MPI, 8 OpenMP нитей (логарифмическая шкала) Расчеты на суперкомпьютере Ломоносов с использованием до ядер Адаптированная неструктурированная тетраэдральная сетка Вид сбоку, поле завихренности Вид сбоку, поле модуля скорости Вид сверху, поле модуля скорости Изоповерхности модуля скорости Параметры задачи Re=14000, M=0.2 Сетка 16M узлов, 100M тетраэдров, 4-шаговый метод Runge-Kutta 4-го порядка по времени, Схема повышенного порядка с центром в узлах.

Трудности программирования и особо жесткие требования к вычислительным алгоритмам и, как следствие, заметное ограничение области применения. Цель работы – создание относительно недорогого вычислительного комплекса для нахождения архитектурных, программных и алгоритмических решений для вычислительных систем на базе существенно многоядреных процессоров. Экзафлопсная инициатива.

Структурная схема опытного образца суперкомпьютера «МВС – экспресс». Пиковая производительность около ~6 TFLOPS.

Гибридная архитектура основана на традиционном вычислительном кластере, каждый узел которого снабжен сопроцессором (ускорителем) нетрадиционной архитектуры. При гибридном подходе, часть работы программист может выполнить в привычных старых терминах, отдельно от изучения собственно новых архитектур. Межузловую сеть следует усилить, оптимизировать по задержкам и упростить с точки зрения программирования.

В качестве ускорителей были выбраны готовые серийно выпускаемые GP GPU. В качестве сети – сеть собственной (совместно с ФГУП «Квант») разработки. Сеть оптимизирована под модель программирования PGAS (разделенное глобальное адресное пространство), -простейший вариант библиотека shmem, что не исключает использование MPI.

Задача оптимизации алгоритма – поиск подлежащих ускорению фрагментов обработки с максимальной локальностью обращений к памяти и максимальной простотой работы с памятью. Пути решения этой задачи почти инвариантны к конкретной используемой архитектуре специального вычислителя – это общая проблема многоядерности.

Какие задачи хорошо адаптируются к предлагаемой архитектуре - для которых можно построить логически простые и в то же время эффективные алгоритмы. Задачи, описывающие перенос излучений, молекулярная динамика. Алгоритмы, основанные на явных схемах для решения задач математической физики. Для явных разностных схем при решении параболических уравнений существует проблема жесткого ограничения на шаг по времени для устойчивости счета.

Моделирование поглощения гамма-излучения. Q2Q2 Q1Q1 Q3Q3 O Описание многокомпонентного объекта и его трассировка. Траектории фотонов в цилиндре

Схема многоядерной реализации алгоритма

Структура распределения поглощенной энергии по энергетическим ячейкам. Полученное ускорение расчета: с использованием одного видеоадаптера nVidia GeForce GTX 275 ~80 раз, при использовании ускорителя nVidia Tesla ~320 раз, при использовании четырёх узлов гибридного кластера ~570 раз.

Численное моделирование трансзвукового обтекания головных частей ракет-носителей Трансзвуковая перестройка течения.

Сравнение расчетных и экспериментальных данных Ускорение счета с использованием GPU

Расчет обтекания препятствия. Уравнения Эйлера. Разностная схема С.К.Годунова.

Квазигазодинамическая система уравнений

Введение дополнительного релаксационного параметра для увеличения допустимого шага по времени.

Расчет течения несжимаемой жидкости в полости. Алгоритм на основе квазигазодинамической системы уравнений. Расчет с 2-й точностью

Задача о вытекании жидкости из контейнера

Мгновенные линии тока

Линии тока в диагональном сечении

Кинетический подход к моделированию течений в пористых средах Классическая модельМодифицированная модель Тестовые расчеты притока жидкости к нефтедобывающей скважине h, см Δt, сек τ, сек

Расчет на GPUs задачи о двухфазном просачивании загрязняющих веществ в почву Постановка задачи и поле насыщенности загрязняющего вещества (тетрахлорэтилен) Ускорение расчетов на GPU по сравнению с 1 ядром CPU

Предполагаемый Супер-компьютер ИПМ им. М.В.Келдыша РАН производительностью 100 TFLOPS, энергопотребление комплекса до 70 кВт, стоимость проекта 65 млн.р. 1.Моделирование задач гидро- и газовой динамики. 2.Прогнозирование аварийных ситуаций в космическом пространстве. 3.Моделирование процессов неразрущающего контроля. 4.Решение задач молекулярной динамики. 5.Моделирование добычи углеводородного сырья.

Опытный образец супер-компьютера «МВС-ЭКСПРЕСС»

GPU Nvidia GeForce 295GTX Структурная схема вычислительного узла CPU AMD Opteron 2382 SDRAM 8ГБ 2 х DDR2 2 х 5,4 ГБайт/c Media and Communications Processor nVidia MCP55 PRO HyperTransport ~ до 16 ГБайт/с PCI-Express x4 1 ГБайт/c PCI-Express x16 4 ГБайт/c SDRAM 8ГБ HDD 320ГБ Serial ATA 3 Гбит/с Gigabit Eternet 1Гбит/c Сетевая карта Адаптер МВС-Экспресс CPU AMD Opteron 2382 Аппаратура: Процессор 2 x Opteron 2382 Частота 2600MГц 7 доступных задаче пользователя ядер. Двухканальная оперативная память PC ГБайт Диск SATA 320Gb Сетевая карта Gigabit Ethernet. Видеокарта nVidia GeForce 295GTX 2 x 240 GPU с частотой 1242 МГц 1 ГБайт SDRAM Коммуникационный адаптер МВС-экспресс Cкорость до 700 Мбайт/с Латентность ~1,2 мкс Время выдачи слова ~ 70 нс Время чтения слова ~ 2,5 нс Программное обеспечение: Операционная система SuSE Linux Enterprise Server Распараллеливание вычислений shmem-экспресс. 2 х DDR2 2 х 5,4 ГБайт/c HyperTransport ~ до 16 ГБайт/с

Сумм. пропускная способность Гбит/с Максимальный размер пакета байт Количество каналов LAN-4х - 8 шт. Изготовитель - Квант, 2009 год Измеренные значения: Скорость записи массива ( слов)- 681 Мбайт/с Скорость чтения массива ( слов)- 476 Мбайт/с Латентность обменов- 2,1 мкс Коммутатор PCI-Express

Адаптер PCI-Express Интерфейс PCI-Express x4 Cкорость до 700 Мбайт/с Латентность ~1,2 мкс Время выдачи слова ~ 70 нс Время чтения слова ~ 2,5 нс