Проблемы создания элементной базы экзамасштабных систем Л.К.Эйсымонт (к.ф-м.н, научный консультант ФГУП «НИИ «Квант») Семинар кафедры Нано и микроэлектроники.

Презентация:



Advertisements
Похожие презентации
Прогнозные оценки развития высокопроизводительной вычислительной техники. Эйсымонт Л.К. ОАО «НИЦЭВТ» (Концерн радиостроения Вега)
Advertisements

Параллельные вычисления Лекция 6. y = 3x + 7x – 8x при x = 4 y1 = 3x(1 действие) y2 = 7x(2 действие) y3 = 8x(3 действие) y = y1 + y2 – y3(4 действие)
1 Россия, Томск Общество с ограниченной ответственностью «ХОНБИН»
ПАРАЛЛЕЛЬНАЯ ФИЛЬТРАЦИЯ ИЗОБРАЖЕНИЙ Фурсов В.А., Попов С.Б. Самарский научный центр РАН, Самарский государственный аэрокосмический университет, Институт.
Выполнили: Мартышкин А. И. Кутузов В. В., Трояшкин П. В., Руководитель проекта – Мартышкин А. И., аспирант, ассистент кафедры ВМиС ПГТА.
Московский государственный университет им.М.В.Ломоносова Институт вычислительной математики РАН Воеводин В.В., Воеводин Вл.В. СУПЕРВЫЧИСЛЕНИЯ:
ЛЕКЦИИ (сокр. версия). Курс: Проектирование систем: Структурный подход Каф. Коммуникационные сети и системы, Факультет радиотехники и кибернетики.
Организация ЭВМ и систем Кафедра Параллельных вычислений (ИВМиМГ) Маркова Валентина Петровна, Киреев Сергей Евгеньевич,
1 Микропроцессорная система. 2 Особенности микропроцессорных систем Гибкая логика работы меняется в зависимости от задачи; Универсальность может решать.
Решения компании «Т-Платформы» для высокопроизводительных вычислений: взаимовыгодное сотрудничество отечественной науки и бизнеса.
Процессор Состав системного блока Рисунок 1. Содержимое системного блока: 1 - вентилятор; 2 - блок питания; 3 - дисковод; 4 - жесткий диск; 5 - динамик;
М.Л. Цымблер, Л.Б. Соколинский Южно-Уральский государственный университет (Челябинск) Организация систем хранения данных на базе вычислительных кластеров.
Введение в параллельную обработку. Уровни параллелизма в процессорах Параллелизм данных (DLP – Data Level Parallelism) Параллелизм команд (ILP – Instruction.
Архитектуры высокопроизводительных программных комплексов для моделирования сложных систем С.В. Ковальчук, И.О. Варвалюк НИИ Наукоемких компьютерных технологий,
Архитектура современных ЭВМ Кафедра Параллельных вычислений (ИВМиМГ) Кафедра Параллельных вычислительных технологий Маркова Валентина Петровна,
Выполнил: Желнин С.В. Научный руководитель: Фельдман В.М.
Центр дистанционных автоматизированных учебных лабораторий Казанский государственный технический университет им. А.Н.Туполева Институт радиоэлектроники.
История предмета год.- Чарьлз Бебидж механическо- вычислительную машину, использовав.
СОБОЛЕВ Сергей Сергеевич ЗОЛЬНИКОВ Владимир Константинович КРЮКОВ Валерий Петрович СОБОЛЕВ Сергей Сергеевич ЗОЛЬНИКОВ Владимир Константинович КРЮКОВ Валерий.
Программная система для изучения и исследования параллельных методов решения сложных вычислительных задач Нижегородский государственный университет им.
Транксрипт:

Проблемы создания элементной базы экзамасштабных систем Л.К.Эйсымонт (к.ф-м.н, научный консультант ФГУП «НИИ «Квант») Семинар кафедры Нано и микроэлектроники МИФИ, 24 сентября 2013

Требования по памяти экзамасштабных систем

Общая картина в области СКТ - Внедрение результатов программы DARPA HPCS ( ), коммерческие образцы и военные суперЭВМ ( ) - Выполнение программы DARPA UHPC ( ) и программ DoE по экзамасштабным технологиям и суперЭВМ экза-уровня - Выполнение программы DARPA STARNet (с 2013 года) по оптимизации использования КМОП-технологий и разработки технологий пост-Муровской эры, зетта- и йотта-уровень

Проекты DARPA UHPC экзамасштабной тематики и эксперименты с перспективными run-timе системами. 1.Проект Echelon (NVIDIA, Cray, 8 университетов. Модель программ – обобщение CUDA. Есть эмуляция на кластерных суперкомпьютерах. 2.Проект Runnemede (Intel, Университет Делавера….). Модель программы – Соdelet-модель. Есть эмуляция на кластерных компьютерах. 3. Проект Angstrom (MIT, Tilera ), Модель программы – SEEС, есть эмуляция на кластерных суперкомпьютерах. 4. Проект X-calibr (Лаборатория Sandia, ….). Модель программы – ParalleX, есть эмуляция на кластерных суперкомпьютерах – HPX (университет Луизианы).

Базовые материалы экзафлопсной тематики (экстремальные технологии)

Ожидаемые результаты по суперЭВМ экза- и более уровня – военные суперкомпьютеры (ВКСН) экза-уровня, CF- и DIS-задачи – эволюционная суперЭВМ экзафлопсного уровня NNSA DoE - после 2022 – инновационная суперЭВМ экзафлопсного уровня OS/ASCR DoE - после военные суперкомпьютеры (ВКСН) зетта-уровня (~ 2020) и йотта- уровня (~ 2024), технологии RSFQ, QCA и квантовые аналогово-спиновые (~D-Wave)

Проблемы, которые надо решить… ( стена памяти, хранение и передача данных, энергоэффективность, отказоустойчивость, продуктивность)

Базовые целевые характеристики суперЭВМ экза-уровня

Базовые характеристики рекордных суперЭВМ, лето 2013 (Top500)

Увеличение разрыва такта процессора и времени доступа к DRAM-памяти

Динамика роста пиковой и реальной производительности (видение 2003 года) В настоящее время разрыв раз

Saule E. et al. Performance Evaluation of Sparse Matrix Multiplication Kernels on Intel Xeon Phi. 5 Feb 2013, 19 pp HPCG (SpMV) против HPL(Top500) Установка Реальная производительность на SpMV (% от пиковой) 2 x Intel Xeon X5680 (Westmere) 0,7 - 1,3 2 x Intel Xeon E (Sandy Bridge) 1,2 - 2,3 NVIDIA Tesla C2050 (Fermi). 1,2 - 5,3 Tesla K20 (Kepler) 0,4 - 1,2 Intel Xeon Phi 0,5 - 4,5

Пакет тестов Euroben, группы операций тест Euroben (модуль mod1a) 31 тест простых операций с векторами Цели: Оценка производительности вычислительных элементов в зависимости от схемы доступа к данным и соотношения числа вычислительных операций и операций доступа к памяти Сравнение компиляторов и опций

Пакет тестов Euroben, Intel E Sandy Bridge (core Rpeak 17,6 Гфлоп/с ) Группа 1Группа 2

Тест APEX-map, APEX-поверхность, профиль работы с памятью теста APEX-map

Разные режимы пространственно-временной локализации и эффективность работы памяти Пространственная локализация Временная локализация

Профили тестов, получены на имитационной модели СКСН Ангара (Россия, ОАОНИЦЭВТ) Тест SpMVBFS

Профили реальных программ, получены на реальном оборудовании (США, ORNL DoE)

Пространственно-временная локализация обращений к памяти - измерение Пространственная локализация (spatial locality) - тенденция приложения выдавать обращения к памяти, в которых адреса находятся вблизи от адресов недавно выданных обращений Weinberg J. et al. Quantifying Locality In The Memory Access Patterns of HPC Applications. SC05, November 12-18, 2005, 12 pp. (San Diego-LBNL) Временная локализация (temporal locality) – тенденция приложения выдавать обращения к памяти к тем же адресам, которые были в недавно выданных обращениях SL [0,1] TL [0,1]

Технология оптимизации на основе результатов профилирования работы с памятью - 1

Технология оптимизации на основе результатов профилирования работы с памятью - 2

Архитектурные-программные приемы преодоления проблемы стены памяти

Перспективы и особенности развития технологий микропроцессорных кристаллов

Развитие микроэлектронных технологий Процессорные кристаллы Кристаллы памяти

Анатомия энергетических характеристик экзамасштабных систем 2018 года

Анатомия характеристик подсистемы памяти экзамасштабных систем 2018 года

Текущий уровень интерфейсов Threadstorm

Имитационное моделирование многоядерного Cray XMT (Threadstorm) Tumeo S. et al. Designing Next-Generation Massively Multithreded Architectures for Irregular Applications. COMPUTER, August 2012, pp Villa O., Tumeo A., Secchi S., Manzano J.B., Fast and Accurate Simulation of the Cray XMT Multithreaded Supercomputer, IEEE Transactions on Parallel and Distributed Systems, 13 Feb pp.

Результаты тестовых прогонов без агрегирования сообщений (32 узла)

Блок агрегирования сообщений

Результаты тестовых прогонов с агрегированием сообщений, MC=8

Вычислительный узел

Энергоэффективность процессора узла

3D сборка – IBM TSV

Коммуникационный опточип IBM Holley и вариант перспективной компоновки вычислительного модуля 90 нм, 48 линков по 12.5 Gb/s (24(in)+24(out)), ~5x5мм, 8 pJ/bit. Перспектива (45 нм) – 40 Gb/s, 1 pJ/bit (0.8 – E, 0.2 – O) Узел - 5х6 см, 82 (OE), 1968 VCSL PD, 6 узлов в группе, 4 группы в модуле

HMC (фирмы Micron, HP)

HMC (фирмы Micron, HP) – интеллектуальная память

Многоуровневая коммуникационная сеть

Стойка суперкомпьютера Power 775

Серверная плата суперкомпьютера Power 775

Многопортовый HUB-маршрутизатор сети PERCS

Многоуровневая сеть PERCS суперкомпьютера Power 775

Одно вычислительное лезвие суперкомпьютера Сray XC30

Многоуровневая сеть суперкомпьютера Сray XC30 Фрейм Двухстоечный фрагмент

Уровни иерархии 1, 2 и 3 новых суперкомпьютеров и возможности коммуникационных средств этих уровней

Специализация и блоки аналогового типа

Переход от подхода 90/10 к подходу 10х10 – специализация ядер в виде функциональных кластеров

Специализация на символьную обработку – символьный кластер Регистры Pe Правила проектирования – 206 Правила замены - 88 Правила переходов Pe Операции Pe

Крупнозернистое распараллеливание программ – одновременное выполнение функций. Программа Последовательное выполнениеПараллельное выполнение

Мелкозернистое распараллеливание проектирования и замены. Пример левой части Левая часть с расставленными номерами шагов проектирования Возможное совмещение проектирования На следующем слайде – процесс реального проектирования для обращения с аргументом BC+M(()A(**)MCPBC). Получаем: e1 = BC, e2=M, w3=(), e4=MCP Эйсымонт Л.К. О возможности параллельных схем реализации одного языка для описания задач переработки текстовой информации. – Управляющие Системы и Машины, Киев, 1977, с

Пример совмещения проектирования элементов одной левой части

δ1 - Правила проектирования для Pe (k) δ2 - Правила проектирования для Pe (~)

δ3 - Правила проектирования для Pe (φ)

Квантовый аналогово-спиновый суперкомпьютер D-Wave - 1 Один q-бит Соединение двух q-битов Вычисление, которое может выполнять D-Wave, si –спины, +1 или -1, hi и Ji,j – настроечные коэффициенты Логическое соединение 128 q- битов

Квантовый аналогово-спиновый суперкомпьютер D-Wave - 2 Рабочая температура ~ 20 mK

Квантовый аналогово-спиновый суперкомпьютер D-Wave - 3

Физические ограничения и пост-Муровская эра

Ограничение Лэндауэра. Динамика снижения затрат на обработку одного бита

Физический предел производительности нереверсивных суперкомпьютеров –точка Стерлинга(для мощности 600 KW)

Прогноз роста потребностей производительности и возможностей создаваемых суперкомпьютеров

Вопросы ? Эйсымонт Леонид Константинович (ФГУПНИИКвант,

Приложение 1. Военные суперкомпьютеры (ВКСН) годов. Характерные особенности: -массово-мультитредовая архитектура -глобально адресуемая память -гибридность архитектуры -отказоустойчивость -оптимизация обработки коротких, средних и длинных векторов -потоковая обработка (статические графы, управление потоком данных) - иерархические коммуникационные сети с функциональной ориентацией П1.1. США - Сray Scorpio (условное название) П1.2. Китай – Удар Грома (СТ-2/СТ-3) П1.3. Япония – Стрела времени

Общая структура суперкомпьютера Echelon

Структура SM-ядра

Полоса обработки (Lane) SM-ядра

Модель вычислений ParalleX.

Сравнение Echelon с функционально – специализированными суперкомпьютерами

Приложение 3. Проект Сorona ( Hewlett-Packard, University of Visconsin, University of UTAH)

3D-модуль процессора

3D-модуль памяти

Приложение 4. Организация работ по тематике нанотехнологий и пост-Муровской ЭКБ

Зоны работ по нанотехнологиям - 1

Зоны работ по нанотехнологиям -2

Программа DARPA STARnet (долгосрочная, коммерциализация через лет)

DARPA STARnet – Центр N1

DARPA STARnet – Центр N2

DARPA STARnet – Центр N3

DARPA STARnet – Центр N4

DARPA STARnet – Центр N5

DARPA STARnet – Центр N6

Конец приложений