Е.Ю. Алексеева Механико-математический факультет Южно-Уральского государственного университета.

Презентация:



Advertisements
Похожие презентации
Архитектура и программирование массивно-параллельных вычислительных систем zЛекторы: yБоресков А.В. (ВМиК МГУ)Боресков А.В. (ВМиК МГУ) yХарламов А. (NVidia)Харламов.
Advertisements

Компьютерные кластеры. Автор: Капля Алексей Владимирович alex
Архитектура микропроцессоров И ее эволюция. Процессор и память: Команды и данные.
Введение в параллельную обработку. Уровни параллелизма в процессорах Параллелизм данных (DLP – Data Level Parallelism) Параллелизм команд (ILP – Instruction.
Вычислительные Кластеры. Кластер 2/30 Группа компьютеров, объединённых высокоскоростными каналами связи и представляющая с точки зрения пользователя единый.
Вычислительные Кластеры. Кластер 2/30 Группа компьютеров, объединённых высокоскоростными каналами связи и представляющая с точки зрения пользователя единый.
Архитетура компьютерных систем. Архитектура системы команд как интерфейс между программным и аппаратным обеспечением Архитектура системы команд.
Процессоры История платформы процессоров на архитектуре х86 Презентация: Бурдина Алексея Группы: 331.
Устройство компьютера. 2 Системный блок Процессор (CPU = Central Processing Unit) – микросхема, которая обрабатывает информацию и управляет всеми устройствами.
Современные микропроцессоры Тенденции развития. Рассматриваемые процессоры Intel Itanium 2 Intel Core 2 Duo IBM Cell.
Лекторы: Боресков А.В. (ВМиК МГУ) Харламов А. (NVidia) Архитектура и программирование массивно- параллельных вычислительных систем.
Лекторы: Боресков А.В. (ВМиК МГУ) Харламов А. (NVidia) Архитектура и программирование массивно- параллельных вычислительных систем.
Организация ЭВМ и систем Кафедра Параллельных вычислений (ИВМиМГ) Маркова Валентина Петровна, Киреев Сергей Евгеньевич,
Архитектура ЭВМ (лекция 7) проф. Петрова И.Ю. Курс Информатики.
Автор: учитель информатики Комкова Мария Сергеевна, г.Москва.
RISC-архитектуры ( Reduced Instruction Set Computer)
Методы построения и программное обеспечение вычислительных кластеров Дмитрий Лайком гр. 8ВМ23.
The AMD Athlon (K7). Шина AMD Athlon AMD Opteron.
Процессор – это блок, предназначенный для автоматического считывания команд программы, их расшифровки и выполнения.
Общая характеристика многопроцессорных вычислительных систем.
Транксрипт:

Е.Ю. Алексеева Механико-математический факультет Южно-Уральского государственного университета

Механико-математический факультет Южно-Уральского государственного университета

Содержание лекции Структуры аппаратного обеспечения Принципы построения мультипроцессорных систем Вычислительный кластер МЛЦ МГУ Механико-математический факультет Южно-Уральского государственного университета

Архитектура фон Неймана ПАМЯТЬ УСТРОЙСТВО УПРАВЛЕНИЯ АРИФМЕТИКО- ЛОГИЧЕСКОЕ УСТРОЙСТВО ВВОДВЫВОД Механико-математический факультет Южно-Уральского государственного университета

Архитектуры современных процессоров CISC (Complex Instruction Set Computing) философия проектирования процессоров, которая характеризуется следующим набором свойств: Нефиксированным значением длины команды Исполнение операций, таких как загрузка в память, арифметические действия кодируется в одной инструкции Небольшим числом регистров, каждый из которых выполняет сторого определенную фукнцию RICS (Reduced Instruction Set Computing) вычисления с сокращённым набором команд Фиксированная длина инструкций и простой формат команды Одна инструкция выполняет только одну операцию с памятью Большое количество регистров общего назначения MISC (Minimal Instruction Set Computer) процессор, работающий с минимальным набором длинных команд. Объединяет в себе суперскалярную и VLIW (Very Long Instruction Word) концепции Механико-математический факультет Южно-Уральского государственного университета

Проблемы увеличения производительности процессора Размер кристалла (ограничения техпроцесса) Тепловыделение ядра процессора (~ 4-й степени частоты) Высокая стоимость производства Малая результативность наращивания только тактовой частоты Несоответствующий росту производительности рост стоимости процессора Механико-математический факультет Южно-Уральского государственного университета

Существующие многоядерные системы Посмотрим на частоты CPU: 2004 г. - Pentium 4, 3.46 GHz 2005 г. - Pentium 4, 3.8 GHz 2006 г. - Core Duo T2700, 2333 MHz 2007 г. - Core 2 Duo E6700, 2.66 GHz 2007 г. - Core 2 Duo E6800, 3 GHz 2008 г. - Core 2 Duo E8600, 3.33 Ghz 2009 г. - Core i7 950, 3.06 GHz Механико-математический факультет Южно-Уральского государственного университета

Повышение быстродействия Параллельность Конвейер Multithreading SSE Механико-математический факультет Южно-Уральского государственного университета

Конвейерная и суперскалярная обработка (Pipelining and Superscalar Execution) Выполнение типичной команды: выборка команды – IF (Instruction fetch); декодирование команды/ выборка операндов из регистров – ID (Instruction decode) выполнение операции / вычисление эффективного адреса памяти – EX (Execute); обращение к памяти – MEM (Memory access); запоминание результата – WB (Register write back). IFID IFID EXMEM EXMEM WB IFID IFID EXMEM EXMEM WB IFID IFID EXMEM EXMEM WB IFID IFID EXMEM EXMEM WB IFID IFID EXMEM EXMEM WB Механико-математический факультет Южно-Уральского государственного университета

Процессор, кэш и память в современной вычислительной машине Данные временная локальность пространственная локальность Доступ/размер CPU: 1 clk / ~10 register L1 Cache: 1-2 clk / ~10 kB L2 Cache: ~10 clk / ~1 MB RAM: clk / ~1GB Первичная память Кэш 2-го уровня Кэш 1-го уровня ЦПУ Механико-математический факультет Южно-Уральского государственного университета

Примеры блок-схем процессоров Athlon XP Block Diagram Механико-математический факультет Южно-Уральского государственного университета

Intel Core 2 Duo 32 Кб L1 кэш для каждого ядра 2/4 Мб общий L2 кэш Единый образ памяти для каждого ядра - необходимость синхронизации кэшей Memory Bus Controller L2 cache L1-IL1-DL1-IL1-D P0P1 Front Side Bus Механико-математический факультет Южно-Уральского государственного университета

Принципы построения мультипроцессорных систем SMP – архитектура MPP – архитектура SMP ccNUMA – архитектура CPU Общая физическая память Подсистема ввода / вывода CPU RAM R1R1 R1R1 Подсистема ввода / вывода RAM CPU Коммуникационная сеть RAM CPU RAM CPU Подсистема ввода / вывода CPU Механико-математический факультет Южно-Уральского государственного университета

Symmetric Multiprocessor Architecture (SMP) Cache Control L2 cache L1-IL1-D P0 Bus Cache Control L2 cache L1-IL1-D P1 Cache Control L2 cache L1-IL1-D P2 Механико-математический факультет Южно-Уральского государственного университета

Cell Dual-threaded 64- bit PowerPC 8 Synergistic Processing Elements (SPE) 256 Kb on-chip/SPE SPE0 PowerPC SPE4 Element Interconnect Bus (EIB) SPE1 SPE2 SPE3 SPE5 SPE6 SPE7 I/O controller I/O controller Memory controller Memory controller RAM Механико-математический факультет Южно-Уральского государственного университета

ccNUMA. Интервалы при обращении к памяти NUMA ФАКТОР Коммуникационная сеть Подсистема ввода / вывода SNC DDR FWH DDR SNC DDR FWH DDR SNC DDR FWH DDR Шина процессоров FSB 16 B data 200 MHz DP 6.4 GB/s Шина памяти 4 RDRAM channels 400 MHz 6.4 GB/s Шина коммутации 4 B data 400 MHz SBD (Simultaneous Bi-Directional) 6.4 GB/s Механико-математический факультет Южно-Уральского государственного университета

BlueGene/L dual-core nodes Node 770 Mhz PowerPC Double Hammer FPU (4 Flop/cycle) 4 Mb on-chip L3 кэш 512 Mb off-chip RAM 6 двухсторонних портов для 3D-тора 3 двухсторонних порта для collective network 4 двухсторонних порта для barrier/interrupt PowerPC Double Hummer FPU L1-IL1-D L2 prefetch buffer PowerPC Double Hummer FPU L1-IL1-D L2 prefetch buffer snoop Shared L3 cache/memory Torus interconnect Collective interconnect Global barrier interrupt Механико-математический факультет Южно-Уральского государственного университета

Архитектура G80 Массив из потоковых мультипроцессоров Streaming Multiprocessor (SM) Streaming Multiprocessor (SM) Streaming Multiprocessor (SM) Streaming Multiprocessor (SM) Streaming Multiprocessor (SM) Streaming Multiprocessor (SM) P0P1P2P3P4P5P6P7 Shared Memory Registers Texture Cache Instruction Unit Streaming Multprocessor Механико-математический факультет Южно-Уральского государственного университета

Сравнение SMP и MPP SMP Архитектура с симметричным параллелизмом OS приложение CPU RAM MPP Архитектура с массовым параллелизмом OS приложение CPU RAM OS приложение OS приложение Механико-математический факультет Южно-Уральского государственного университета

Основные технологии параллельного программирования с разделяемой памятью (multi-core, SMP, NUMA) Pthread OpenMP ShMem … Shared Memory Paradigm с распределенной памятью (MPP) MPI PVM BSPlib … Massive Passing Programming Paradigm Высокоуровневые средства (языки программирования) Разделяемые переменные Java, Ada, SR, Cilk Обмен сообщениями Ada, Occam, Java, Fortran M, SR Координация Linda, Orca Параллельность по данным С*, HPF, NESL, ZPL Механико-математический факультет Южно-Уральского государственного университета

Интерконнект Gigabit Ethernet ( us / 100 MB/s) Myrinet (3-10 us / 1 GB/s) SCI (1-3 us / 1 GB/s) InfiniBand (5-7 us / 1 GB/s до 12 GB/s ) Quadrics (1-3 us / 900 MB/s) InfiniPath (1-2 us / 1 GB/s) Fibre Channel (1 GB/s) уникальные, например IBM BlueGene/L Механико-математический факультет Южно-Уральского государственного университета

Шина данных PCI 2.1 (66 МГц, 64 bit) – 528 MB/s PCI X 2.0 (до 533 МГц) – 4 GB/s PCI Express – 1x GB/s, 32x – 16 GB/s PCI Express 2.0 – 2x PCI Express HyperTransport (до 2.6 ГГц) – 40 GB/s FSB front-side bus (до 266 ГГц в Intel Core 2 Quad Pumped Bus ) – 8.3 GB/s Intel QuickPath - Nehalem uses a 20-bit wide 25.6 GB/s link Механико-математический факультет Южно-Уральского государственного университета

Топологии коммуникационных сетей Толстое дерево СеткаГиперкуб Кольцо Двухмерный тор Механико-математический факультет Южно-Уральского государственного университета

Определения Один из первых архитекторов кластерной технологии Грегори Пфистер дал кластеру следующее определение: «Кластер это разновидность параллельной или распределенной системы, которая: а. состоит из нескольких связанных между собой компьютеров; б. используется как единый, унифицированный компьютерный ресурс». Обычно различают следующие основные виды кластеров: отказоустойчивые кластеры (High-availability clusters, HA) кластеры с балансировкой нагрузки (Load balancing clusters) вычислительные кластеры (High-performance clusters, HPC) Механико-математический факультет Южно-Уральского государственного университета

Преимущества использования кластеров Возможность использования существующей сетевой инфраструктуры. Не требуется приобретать специализированное оборудование. Возможность создания гетерогенных вычислительных систем. Возможность создания систем с произвольным количеством узлов(от двух до нужного количества). Возможность использования кластера несколькими пользователями одновременно, причём каждый пользователь резервирует лишь необходимые для его вычислений ресурсы. Механико-математический факультет Южно-Уральского государственного университета

Недостатки существующих кластерных систем относительно высокая стоимость оборудования большая потребляемая мощность высокий уровень шума громоздкость систем сложность настройки системы и дальнейшей эксплуатации большое тепловыделение Механико-математический факультет Южно-Уральского государственного университета

Технология GRID Механико-математический факультет Южно-Уральского государственного университета

Beowulf Кластер, который состоит из широко распространённого аппаратного обеспечения, работающий под управлением операционной системы, распространяемой с исходными кодами (например, GNU/Linux). Механико-математический факультет Южно-Уральского государственного университета

Преимущества Beowulf-систем стоимость системы гораздо ниже стоимости суперкомпьютера; возможность увеличения производительности системы; возможность использования устаревших компьютеров, тем самым увеличивается срок эксплуатации компьютеров; широкая распространённость аппаратного обеспечения; Механико-математический факультет Южно-Уральского государственного университета

Вычислительный кластер IBM eServer IBM eServer HP Switch – 1 Gb UPS ASM Consol switch Механико-математический факультет Южно-Уральского государственного университета

Root node IBM eServer 345 Xeon 2400 GHz – 2 DDR DIMM – 2000MB RAID 5 – 3*70GB = 140GB ASM Ethernet Gb - 2 Механико-математический факультет Южно-Уральского государственного университета

Compute node IBM eServer 335 Intel Xeon (Prestonia/ Northwood ) 2600 GHz/400 MHz (512 KB) processor– 2 DDR DIMM – 1500MB IDE 40GB ASM Ethernet Gb - 2 Механико-математический факультет Южно-Уральского государственного университета

Топология сети …………………… ktg1.phys.msu.ru compute-0-0 compute-0-1 compute-0-5 frontend switch Механико-математический факультет Южно-Уральского государственного университета

Организация кластера Механико-математический факультет Южно-Уральского государственного университета

ОС Linux CentOS 5.2 (RHEL 5.2) в составе Rocks Cluster 5.1 Службы: NFS, DNS, PBS, XDMCP, … SSH Компиляторы: Intel, GNU.. Языки программирования: С, С++, Fortran 77\90\HPF.. Библиотеки MPI, Intel MKL, ScaLAPACK Механико-математический факультет Южно-Уральского государственного университета

Intel Xeon Dual Core Механико-математический факультет Южно-Уральского государственного университета

Intel Itanium/Itanium 2 Механико-математический факультет Южно-Уральского государственного университета

Микропроцессор Sun Ultra SPARC III Механико-математический факультет Южно-Уральского государственного университета