Влияние межпроцессорных связей на эффективность параллельных вычислений Г.Адам 1,2, С.Адам 1,2, А.Айриян 1, Э.Айрян 1, Э.Душанов 1, В.Кореньков 1, А.Луценко.

Презентация:



Advertisements
Похожие презентации
Параллельные вычисления на ЦИВК ОИЯИ Э.Б. Душанов, Х.Т. Холмуродов, В.В. Кореньков Лаборатория информационных технологий ОИЯИ Лаборатория радиационной.
Advertisements

Распараллеливание построения среднеквадратических приближений сплайнами восьмого порядка аппроксимации Полуянов С.В.
Нижегородский государственный университет им. Н.И.Лобачевского Факультет Вычислительной математики и кибернетики Применение технологии Cilk для решения.
Суперкомпьютерный комплекс НИВЦ МГУ и перспективы его развития 12 ноября 2008 г. А.В.Тихонравов, Вл.В.Воеводин.
МГУ им. М.В. Ломоносова, Москва, 21 октября 2011г. КОНСОРЦИУМ УНИВЕРСИТЕТОВ РОССИИ Курс: «Технология параллельного программирования OpenMP» Лабораторная.
ПАРАЛЛЕЛЬНАЯ ФИЛЬТРАЦИЯ ИЗОБРАЖЕНИЙ Фурсов В.А., Попов С.Б. Самарский научный центр РАН, Самарский государственный аэрокосмический университет, Институт.
Суперкомпьютер «УРАН» Андрей Созыкин Заведующий сектором суперкомпьютерных технологии ИММ УрО РАН Заведующий кафедрой высокопроизводительных.
Система в сборе 1. Кластер 2. ИБП 3. Стойка 14 U 4. Поставщик оборудования - компания Bevalex.
Численные методы линейной алгебры. Методы решений нелинейных уравнений и систем. Лекция 3:
Программная система для изучения и исследования параллельных методов решения сложных вычислительных задач Нижегородский государственный университет им.
Тестирование кластерных систем ТГУ и ИОА СО РАН с помощью пакета Linpack А.О. Есаулов, Н.В. Дмитриева Томский государственный университет, г. Томск.
Компания «Т-Платформы» Является ведущим российским разработчиком кластерных решений Поставляет высокопроизводительные решения для любых отраслей народного.
Сравнение различных способов декомпозиции сеточной области при численном решении уравнения переноса Е.А. Данилкин, А.В. Старченко Томский государственный.
Дипломная работа Преснова И.М Научный руководитель Демьянович Ю. К
Интернет Университет Суперкомпьютерных технологий Якобовский Михаил Владимирович проф., д.ф.-м.н. Институт прикладной математики им. М.В.Келдыша РАН, Москва.
Клеточно-автоматные модели диффузионного процесса Участники проекта: Кузнецов Дмитрий, Михайлов Александр, Спешилов Константин. Руководитель: Медведев.
Центр вычислительных технологий АИЦ СВФУ. Содержание ЦВТ – Зачем? – Цели и задачи – Вычислительные кластера – Коллектив Образовательная деятельность –
2 из 21 Введение в Cache-oblivious алгоритмы: –Определение Cache-oblivious алгоритмов. –Модель памяти компьютера. –Cache-oblivious модель –Примеры сache-oblivious.
Интернет Университет Суперкомпьютерных технологий Якобовский Михаил Владимирович проф., д.ф.-м.н. Институт прикладной математики им. М.В.Келдыша РАН, Москва.
Зимняя школа 2010 «Движение заряженных частиц в магнитной ловушке» Блохин Олег Захаров Максим Калишев Глеб Удалова Татьяна Боголепов Денис Исследование.
Транксрипт:

Влияние межпроцессорных связей на эффективность параллельных вычислений Г.Адам 1,2, С.Адам 1,2, А.Айриян 1, Э.Айрян 1, Э.Душанов 1, В.Кореньков 1, А.Луценко 1, В.Мицын 1, Т.Сапожникова 1, А.Сапожников 1, О.Стрельцова 1, И.Василе 2, М.Дулеа 2, А.Сима 2, И.Василе 2, М.Дулеа 2, А.Сима 2, Е.Донец 3, Я.Буша 1,4, И.Покорны 1,4 1 Лаборатория информационных технологий, ОИЯИ 2 Национальный институт физики и ядерной технологии им. Х. Хулубея, Румыния 3 Лаборатория высоких энергий, ОИЯИ 4 Технический университет г. Кошице, Словакия Результаты частично получены в рамках программы Хулубей-Мещеряков

Numerical experiments in NonPerturbative Lattice QCD Numerical experiments in NonPerturbative Lattice QCD New method (simulated annealing) Parallel computing in the infrared limit New method (simulated annealing) Parallel computing in the infrared limit

I. L. Bogolubsky (LIT), E.-M. Ilgenfritz, M. Mueller-Preussker, A. Schiller, A. Sternbeck (Germany) Brazilian Journal of Physics (2007) Simulated Annealing Approach to Infrared QCD New method of gauge fixing (simulated annealing) for computing gluon and ghost Lattice QCD propagators from first principles. Exploration of infrared region asks for largest available parallel supercomputers. Dressing functions for the gluon propagator Gluon propagator for quenched QCD

Parallel computing algorithms and codes based on MPI technology One example: Yang-Mills-dilaton evolution equations

E.E. Donets (VBLHE), E.A. Ayrjan, O.I. Streltsova (LIT), I. Pokorný, J. Buša (Slovakia) MMCP 2006, Slovakia, An instance of parallel algorithm using Message Passing Interface (MPI) technology: Yang-Mills-dilaton evolution equations technology: Yang-Mills-dilaton evolution equations a) Acceleration: T 1 /T p ; computing times: T 1 - on one processor; T p - on p processors Parallel computing acceleration ~ p/2 b) Efficiency: T 1 /(pT p ) – measured on LIT LINUX cluster for different space and time grids of finite-difference scheme Nonlinear system of evolution equations: Conserving energy finite-difference scheme. Diagonally dominant system of linear algebraic equations by parallel algorithms

Решение задачи Yang-Mills-dilaton на новые параллельные кластеры Решение задачи Yang-Mills-dilaton на новые параллельные кластеры

Характеристики систем 1, k – количество операций за такт, n – количество ядер, v – тактовая частота Характеристики Суперкопьютер ЦИВК Кластер IFIN-HH Кластер ЦИВК Процессор Intel 2xXeon 5150 Intel Xeon Irwindale Intel Xeon 5300 Тактовая частота процессора 2660 MHz 3000 MHz Кэш-память второго уровня (на каждом процессоре) 4 MB 2 MB 8 MB Ядер в процессоре 214 Процессоров на узле 212 Объем памяти на узле 8 GB 4 GB 8 GB Узлов в кластере Общее количество процессоров Общее количество ядер Суммарный объем ОП 480 GB 32 GB 80 GB Операционная система Scientific Linux 4.5 CentOS 5 Scientific Linux 4.5 Пиковая производительность GFlops 96 GFlops 960 GFlops Сеть Gigabit Ethernet Myrinet 2000 InfiniBand MPI Version OpenMPI Количество операций за такт 424

Постановка задачи С целью ускорения расчетов были разработаны адаптивные, параллельные алгоритмы для исследования решений системы нелинейных эволюционных уравнений, описывающей взаимодействующие поля Янга-Миллса с дилатоном (ЯМд) 1 : Система двух нелинейных волновых уравнений решается численно методом конечных разностей. После дискретизации получаем две системы линейных алгебраических уравнений (СЛАУ). N Две трехдиагональные СЛАУ порядка N Число итераций k19 k от 1 до 9 Число временных слоев Размер задачи [1] E.A. Hayryan, J. Busa, E.E. Donets, I. Pokorny, O.I. Streltsova. Journal of Mathematical Modelling, 2005, Vol. 17, 6, p

1. СЛАУ порядка N разбивается на p групп. Процесс P i работает со своим блоком уравнений P0P0 P1P1 P p-1 «Метод разбиения» 2 Алгоритм реализует «Метод разбиения» 2 [2] T. M. Austin, M. Berndt, J. D. Moulton.: A Memory Efficient Parallel Tridiagonal Solver. Preprint LA-VR , 2004.

P0P0 P1P1 P p-1 P0P0 2. После преобразований получаем следующую СЛАУ: 3. Первые и последние уравнения из каждого блока пересылаются процессу P 0. пересылаются процессу P 0.

4. Получим вспомогательную трехдиагональную систему уравнений состоящую из 2*p уравнений, которая решается на процессоре P 0 методом прогонки. Индекс первого уравнения k -го процессора обозначим через s k и индекс последнего уравнения k -го процессора обозначим через f k, тогда s 1 =1, f p = n. 5. Полученные и рассылаются обратно и процессор с индексом k определяет остальные неизвестные по формулам: 6. Определенные каждым процессом неизвестные собираются процессом P 0 Преимущество метода: при итерационном процессе для решения СЛАУ отпадает необходимость проведения преобразований матрицы системы, т. е. преобразуется только правая часть, начиная со второй итерации.

Результаты расчетов на суперкомпутере ЦИВК ОИЯИ [240 ядер; Gb Ethernet] Ускорение,

Результаты расчетов на кластере ЦИВК ОИЯИ [80 ядер; InfiniBand] Ускорение,

Результаты расчетов на кластере IFIN HH [16 ядер; Myrinet] Ускорение,

Сравнительный анализ параллельных вычислений на трех кластерах N = N =

на кластерах Сравнение времени расчетов на кластерах ЦИВК ОИЯИ [240 ядер; Gb Ethernet] IFIN HH [16 ядер; Myrinet] Увеличения числа процессоров показывает преимущество Myrinet над Gigabit Ethernet. Myrinet над Gigabit Ethernet. T 1 = 3105 T 1 = 1670 T 14 = 261 T 14 = 387 Ускорение,

Измерение производительности с помощью High-Performance Linpack benchmark (HPL) Измерение производительности с помощью High-Performance Linpack benchmark (HPL) самых мощных HPL benchmark используется для определения самых мощных суперкомпутеров суперкомпутеров в мире (TOP 500) и в СНГ (TOP 50). 12-ое место ЦИВК суперкомпутер занимал, в сентябре 2007 г., 12-ое место в TOP 50. в TOP 50.

Целью создания LINPACK отнюдь не было измерение производительности. Впервые же таким образом использовать его предложил Джек Донгарра в 1979 году. High-Performance Linpack benchmark представляет собой решение системы линейных уравнений методом LU-разложения с известным количеством арифметических операций и вычисление времени выполнения этой задачи. Производительность вычисляется по формуле: где N OP – количество арифметических операций, а T - время решения СЛАУ. Количество операций при этом: где N – порядок решаемой СЛАУ 1. High-Performance Linpack benchmark 1 Воеводин В.В., Воеводин Вл.В., Паралельные вычисления.- СПб.: БХВ-Петербург, 2002

ЦИВК ОИЯИ [240 ядер; Gb Ethernet] Результаты тестирования: ЦИВК ОИЯИ [240 ядер; Gb Ethernet] Достигнутая нами максимальная производительность на тесте HPL составила 1124 GFlops, что примерно в два раза меньше пиковой производительности GFlops

ЦЕРН Суперкомпьютер в ЦЕРН В ЦЕРН (Швейцария) установлен новый суперкомпьютерный кластер, состоящий из 340 узлов, содержащих по два двуядерных процессора Intel Xeon Кластер по итогам тестирования в с помощью теста HPL benchmark занял 115 место в списке TOP500 самых высокопроизводительных суперкомпьютеров в мире 1. 1 H. Hämmerle, N. Crémel, CERN makes it into supercomputing TOP500, CERN COURIER, v. 47, 7, September 2007, p. 16.

Процессор Тактовая частота процессора Кэш-память второго уровня (на каждом процессоре) Ядер в процессоре Процессоров на узле Объем памяти на узле Узлов в кластере Общее количество процессоров Общее количество ядер Суммарный объем ОП Операционная система Теоретическая производительность Сеть MPI Intel Xeon Irwindale 3000 MHz 2 MB 1 4 GB GB CentOS 5 96 GFlops Myrinet 2000 Version Достигнутая максимальная производительность для кластера параллельных вычислений IFIN-HH составила GFlops, дветретьи от пиковой. В 2007 году в IFIN-HH (Румыния) был установлен кластер параллельных вычислений, было предложено протестировать его с помощью HPL benchmark. IFIN HH [16 ядер; Myrinet] Результаты тестирования: IFIN HH [16 ядер; Myrinet]

ЦИВК ОИЯИ [80 ядер; InfiniBand] Результаты тестирования: ЦИВК ОИЯИ [80 ядер; InfiniBand] Данные получены сегодня. Полученная производительность – около 70% от максимальной. Заметно насыщение.

Исследование производительности То обстоятельство, что кластеры ЦИВК ОИЯИ и ЦЕРН на тесте HPL смогли достичь лишь порядка 50% от своих пиковых производительностей не умоляет их возможностей. Дело в том, что данные кластеры являются составными частями GRID-инфраструктуры и предназначены для распределённых вычислений (отсутствуют межпроцессорные коммуникации). К ним, соответственно, предъявляются иные требования нежели к низколатентным суперкомпьютерам предназначенным для параллельных вычислений. Одной из мотиваций данного исследование было выявить эффективность параллельных вычислений на кластере ЦИВК ОИЯИ, для этого было принято решение протестировать и провести сравнительный анализ производительности с кластером для параллельных вычислений IFIN-HH (Румыния), основанным на технологии Myrinet, обладающей низкой латентностью.

Исследование производительности Myrinetзаметно ближе Настоящие данные на Myrinet сети заметно ближе к максимально Gigabit Ethernet доступными чем на Gigabit Ethernet сети.

Исследование производительности Потеря времени показывает что, использование меньшего числа более эффективно процессов более эффективно решает меньшие задачи.

Подгонка полинома третьей степени к измеренным данным в случаях, когда (слева) и (справа) 1. Неопределённости измерения времени 1 Gh. Adam et al., Performance assessment of the SIMFAP parallel cluster at IFIN-HH Bucharest, submitted to Romanian Journal of Physics

Спасибо за внимание!!!