После коммерческого успеха моделей CRAY X-MP фирма Cray Research выпустила модифицированное семейство суперкомпьютеров CRAY Y-MP, обладающих большим числом.

Презентация:



Advertisements
Похожие презентации
Процессор – это блок, предназначенный для автоматического считывания команд программы, их расшифровки и выполнения.
Advertisements

Пятое Поколение и Суперкомпьютеры. Основные требования к компьютерам 5-го поколения: Создание развитого человеко-машинного интерфейса (распознавание речи,
Архитектура ЭВМ (лекция 7) проф. Петрова И.Ю. Курс Информатики.
Автор: учитель информатики Комкова Мария Сергеевна, г.Москва.
Процессор В ПК устройством, которое обрабатывает все виды информации (числовую, текстовую, графическую, видео- и звуковую), является МИКРОПРОЦЕССОР или.
Архитектура компьютера. Функциональные характеристики ПК Лекция 2 часть г.
Системы с общей оперативной памятью UMA, SMP, NUMA.
Машинная команда Энциклопедия учителя информатики Газета «Первое сентября»
Магитстрально- модульное построение компьютера. архитектурой ЭВМ называется описание структуры и принципов работы компьютера без подробностей технической.
The AMD Athlon (K7). Шина AMD Athlon AMD Opteron.
Общая структура и состав персонального компьютера.
Основная микросхема компьютера, в которой и производятся все вычисления. На процессоре установлен большой медный ребристый радиатор, охлаждаемый вентилятором.
Введение в параллельную обработку. Уровни параллелизма в процессорах Параллелизм данных (DLP – Data Level Parallelism) Параллелизм команд (ILP – Instruction.
Системы с несколькими конвейерами В процессорах Intel конвейер появился только начиная с 486 модели. Но уже в Pentium-е было два конвейера из 5 стадий:
Иногда говорят «персональный компьютер». Уточнение «персональный» здесь не случайно – это значит свой, личный, доступный большинству людей, ведь существует.
RISC-архитектуры ( Reduced Instruction Set Computer)
Супер ЭВМ Понятие Супер ЭВМ Цели Супер ЭВМ Характеристики производительности Супер ЭВМ Программное обеспечение Супер ЭВМ Архитектура совеременных Супер.
1. Теоретические основы операционных систем (планирование заданий и использования процессора, обеспечение программ средствами коммуникации и синхронизации,
Микропроцессоры Схема устройства компьютера Устройства ввода Внешняя память Устройства вывода Внутренняя память Процессор.
1 Микропроцессорная система. 2 Особенности микропроцессорных систем Гибкая логика работы меняется в зависимости от задачи; Универсальность может решать.
Транксрипт:

После коммерческого успеха моделей CRAY X-MP фирма Cray Research выпустила модифицированное семейство суперкомпьютеров CRAY Y-MP, обладающих большим числом процессоров (до восьми) и пониженной длительностью машинного цикла (6 нс). Старшая модель этого семейства CRAY Y-MP/832 имела пиковую производительность 2666 MFLOPS и занимала двенадцатую позицию в рейтинге Дж. Донгарра по результатам тестирования на пакете LINPACK. Первые же пять позиций принадлежали представителям CRAY-MP C90, старшая модель которого - 16-процессорная машина CRAY Y-MP C90/ имела оперативную память емкостью 2 Гбайт и могла демонстрировать производительность на уровне 16 GFLOPS. Все 16 процессоров и оперативная память этого компьютера размещались в одной стойке весьма скромных размеров: 2,95x2,57x2,17 м 3. Подсистема ввода/вывода CRAY Y-MP C90 имела до 256 каналов с общей пропускной способностью 13,6 Гбайт/с, встроенный кремниевый диск емкостью 16 Гбайт и поддерживала дисковую память общей емкостью до 4 Тбайт. "Суперпараметры" модели CRAY Y-MP C90 эффектно дополняются развитым программным обеспечением, центральным ядром которого являются компиляторы CF77 Fortran, Cray Standard C Compiler, Cray ADA и Pascal. 1991

Общая структура компьютера CRAY Y-MP C90. CRAY Y-MP C90 - это векторно-конвейерный компьютер, объединяющий в максимальной конфигурации 16 процессоров, работающих над общей памятью. Время такта компьютера CRAY Y-MP C90 равно 4.1 нс, что соответствует тактовой частоте почти 250MHz. Оперативная память этого компьютера разделяется всеми процессорами и секцией ввода/вывода. Каждое слово состоит из 80-ти разрядов: 64 для хранения данных и 16 для коррекции ошибок. Для увеличения скорости выборки данных память разделена на множество банков, которые могут работать одновременно. Каждый процессор имеет доступ к ОП через четыре порта с пропускной способностью два слова за один такт каждый, причем один из портов всегда связан с секций ввода/вывода и по крайней мере один из портов всегда выделен под операцию записи. В максимальной конфигурации вся память разделена на 8 секций, каждая секция на 8 подсекций, каждая подсекция на 16 банков. Адреса идут с чередованием по каждому из данных параметров:

адрес 0 - в 0-й секции, 0-подсекции, 0-м банке, адрес 1 - в 1-й секции, 0-подсекции, 0-м банке, адрес 2 - в 2-й секции, 0-подсекции, 0-м банке,... адрес 8 - в 0-й секции, 1-подсекции, 0-м банке, адрес 9 - в 1-й секции, 1-подсекции, 0-м банке,... адрес 63 - в 7-й секции, 7-подсекции, 0-м банке, адрес 64 - в 0-й секции, 0-подсекции, 1-м банке, адрес 65 - в 1-й секции, 0-подсекции, 1-м банке,... При одновременном обращении к одной и той же секции из разных портов возникает задержка в 1 такт, а при обращении к одной и той же подсекции одной секции задержка варьируется от 1 до 6 тактов. При выборке последовательно расположенных данных или при выборке с любым нечетным шагом конфликтов не возникает.

Секция ввода/вывода Компьютер поддерживает три типа каналов, которые различаются скоростью передачи: Low-speed (LOSP) channels - 6 Mbytes/s High-speed (HISP) channels Mbytes/s Very high-speed (VHISP) channels Mbytes/s Секция межпроцессорного взаимодействия Секция межпроцессорного взаимодействия содержит разделяемые регистры и семафоры, предназначенные для передачи данных и управляющей информации между процессорами. Регистры и семафоры разделены на одинаковые группы (кластеры), каждый кластер содержит 8 (32-разрядных) разделяемых адресных (SB) регистра, 8 (64-разрядных) разделяемых скалярных (ST) регистра и 32 однобитовых семафора.

Вычислительная секция процессора Каждый процессор имеет три набора основных регистров (A, S, V), которые имеют связь как с памятью, так и с ФУ. Для регистров A и S существуют промежуточные наборы регистров B и T, играющие роль буферов для основных регистров. Все процессоры имеют одинаковую вычислительную секцию, состоящую из регистров, функциональных устройств (ФУ) и сети коммуникаций. Регистры и ФУ могут хранить и обрабатывать три типа данных: адреса (A-регистры, B-регистры), скаляры (S-регистры, T-регистры) и вектора (V-регистры). Регистры Адресные регистры: A-регистры, 8 штук по 32 разряда, для хранения и вычисления адресов, индексации, указания величины сдвигов, числа итераций циклов и т.д. B-регистры, 64 штуки по 32 разряда. Скалярные регистры: S-регистры, 8 штук по 64 разряда, для хранения аргументов и результатов скалярной арифметики, иногда содержат операнд для векторных команд. T-регистры, 64 штуки по 64 разряда. Скалярные регистры используются для выполнения как скалярных, так и векторных команд. Векторные регистры: V-регистры, 8 штук на разрядных слова каждый. Векторные регистры используются только для выполнения векторных команд. Регистр длины вектора: 8 разрядов. Регистр маски вектора: 128 разрядов.

Функциональные устройства ФУ исполняют свой набор команд и могут работать одновременно друг с другом. Все ФУ конвейерные и делятся на четыре группы: адресные, скалярные, векторные и для работы с плавающей точкой. Адресные ФУ (2): целочисленное сложение/вычитание, целочисленное умножение. Скалярные ФУ (4): целочисленное сложение/вычитание, логические поразрядные операции, сдвиг, число единиц/число нулей до первой единицы. Векторные ФУ (5-7): целочисленное сложение/вычитание, сдвиг, логические поразрядные операции (1-2), число единиц/число нулей до первой единицы (1-2), умножение битовых матриц (0-1). Предназначены для выполнения только векторных команд. ФУ с плавающей точкой (3): сложение/вычитание, умножение, нахождение обратной величины. Предназначены для выполнения как векторных, так и скалярных команд. Векторные ФУ и ФУ с плавающей точкой продублированы: векторные команды разбивают 128 элементов векторных регистров на четные и нечетные, обрабатываемые одновременно двумя конвейерами (pipe 0, pipe 1). Когда завершается выполнение очередной пары операций результаты записываются на соответствующие четные и нечетные позиции выходного регистра. В полностью скалярных операциях, использующих ФУ с плавающей точкой, работает только один конвейер. ФУ имеют различное число ступеней конвейера, но каждая ступень срабатывает за один такт, поэтому при полной загрузке все ФУ могут выдавать результат каждый такт.

Секция управления процессора Команды выбираются из ОП блоками и заносятся в буфера команд, откуда они затем выбираются для исполнения. Если необходимой для исполнения команды нет в буферах команд, то происходит выборка очередного блока. Команды имеют различный формат и могут занимать 1 пакет (16 разрядов), 2 пакета или 3 пакета (в одном слове 64 разряда, следовательно, в слове содержится 4 пакета). Максимальная длина программы на CRAY C90 равна 1 Гибислову. Параллельное выполнение программ Конвейеризация выполнения команд Все основные операции, выполняемые процессором: обращения в память, обработка команд и выполнение инструкций являются конвейерными. Независимость функциональных устройств Большинство ФУ в CRAY C90 являются независимыми, поэтому несколько операций могут выполняться одновременно. Для операции A=(B+C)*D*E порядок выполнения может быть следующим (все аргументы загружены в S регистры). Генерируются три инструкции: умножение D и E, сложение B и C и умножение результатов двух предыдущих операций. Первые две операции выполняются одновременно, затем третья.

Векторная обработка Векторная обработка увеличивает скорость и эффективность обработки за счет того, что обработка целого набора (вектора) данных выполняется одной командой. Скорость выполнения операций в векторном режиме приблизительно в 10 раз выше скорости скалярной обработки. Для фрагмента типа Do i = 1, n A(i) = B(i)+C(i) End Do в скалярном режиме потребуется сгенерировать целую последовательность команд: прочитать элемент B(I), прочитать элемент C(I), выполнить сложение, записать результат в A(I), увеличить параметр цикла, проверить условие цикла. В векторном режиме этот фрагмент преобразуется в: загрузить порцию массива B, загрузить порцию массива C (эти две операции будут выполняться со сдвигом в один такт, т.е. практически одновременно), векторное сложение, запись порции массива в память, если размер массивов больше длины векторных регистров, то повторить эту последовательность некоторое число раз. Перед тем, как векторная операция начнет выдавать результаты, проходит некоторое время (startup), связанное с заполнением конвейера и подкачкой аргументов. Чем больше длина векторов, тем менее заметным оказывается влияние данного начального промежутка времени на все время выполнения программы. Векторные операции, использующие различные ФУ и регистры, могут выполняться параллельно.

Зацепление функциональных устройств Архитектура CRAY Y-MP C90 позволяет использовать регистр результатов векторной операции в качестве входного регистра для последующей векторной операции, т.е. выход сразу подается на вход. Это называется зацеплением векторных операций. Вообще говоря, глубина зацепления может быть любой, например, чтение векторов, выполнение операции сложения, выполнение операции умножения, запись векторов.

Пиковая производительность CRAY Y-MP C90 Пиковая производительность компьютера CRAY Y-MP C90 вычисляется так: функциональные устройства выдают два результата каждый такт (сдвоенные конвейеры), зацепление сложения и умножения дает четыре операции за такт, что составляет почти 1 Гфлопс. Если работают все 16 процессоров, то 16 Гфлопс.

Примерно в это время Сеймур Крей оставляет основанную им фирму Cray Research и создает новую компанию Cray Computer в целях разработки суперкомпьютеров нового поколения CRAY-3 и CRAY- 4. Причинами этого шага стали два обстоятельства: во-первых, руководство Cray Research не хотело подвергать фирму финансовому и моральному риску в случае неудачи новых проектов, а во-вторых, сам Крей предпочел заниматься пионерскими разработками, оставив для Cray Research задачу закрепления рыночного успеха уже созданных продуктов. В результате, освободившись от бремени проектирования CRAY-3 и CRAY-4, его прежнее детище сосредоточилось на "шлифовке" аппаратного и программного обеспечения семейства CRAY Y-MP, а новое занялось поиском технических решений, позволяющих кардинально повысить производительность векторно-конвейерной обработки. В конце 80-х годов Крей сумел предугадать ситуацию, которая сложилась в области векторных суперкомпьютеров к середине 90-х: архитектурные и программные возможности увеличения производительности за счет многопроцессорной обработки и совершенствования операционных систем и компиляторов для суперЭВМ этого класса оказались практически исчерпаны, а их традиционная элементная база - ECL и BiCMOS БИС со степенью интеграции порядка 10 тыс. вентилей на кристалл - не позволяет преодолеть порог длительности машинного цикла в 2-3 нс. В основу проекта CRAY-3 была заложена идея перехода на принципиально новую элементную базу - БИС на основе арсенида галлия, которая теоретически позволяет обеспечить субнаносекундную продолжительность машинного цикла. Затея казалась весьма рискованной, тем более что в конце 80-х годов в мире не существовало промышленно освоенной технологии для производства подобной элементной базы. Во всяком случае проект CRAY-3 "затормозился" именно из-за неудовлетворительного состояния технологии разработки и производства GaAs-микросхем, а также сборки из них отдельных модулей. Тем не менее после примерно пяти лет работы над проектом CRAY-3 "вышел в свет" и сразу оказался в тройке рекордсменов производительности, обогнав все конкурирующие суперкомпьютеры по тактовой частоте.

Примерно в середине 90-х годов сумасшедший темп развития суперкомпьютеров был потерян. В качестве основных причин следует привести следующие: огромный спад государственной поддержки программы развития суперЭВМ, как результат прекращения холодной войны, плюс отсутствия рынка сбыта супермашин, что объясняется наличием вполне подходящих мини-суперЭВМ гораздо более дешевых и доступных. Большинство производителей стараются переориентироваться на создании архитектур с массовым параллелизмом (MPP).

1994г. Компания Cray Computer сообщила о выпуске в первой половине следующего года суперкомпьютера Cray-4 в четырех- и восьмипроцессорных конфигурациях. Фирма NEC представила на американском рынке свой суперкомпьютер SX-4, поставки которого начнутся в 1995 г. Данная модель имеет от одного до 16-и процессоров и может быть сконфигурирована до системы объёма высокоскоростной общей памяти до 32-х Гбайт. До банков памяти. Объём памяти до 32 Гбайт. 16 Мбит'е микросхемы. Производительность процессора - 16 Гбайт/с. 32-х и 64-х разрядный доступ. Процессоры ввода/вывода. До 16-и каналов HIPPI (High Performance Parallel Interface - высокоскоростной параллельный интерфейс). До 32-х каналов SCSI (Small Computer Systems Interface - системный интерфейс). Комбинации SCSI и HIPPI.

Выпуск массово-параллельного компьютера NCube 3, продемонстрированного компанией NCube и ориентированного на научный рынок, намечен на II квартал 1995 года. В системе nCube 3 число процессоров может достигать (16- мерный гиперкуб).

1995г. Пожалуй, самым впечатляющим событием стал крах фирмы Cray Computer. Эти новости мало для кого оказались сюрпризом: не составляло тайны существование многочисленных долгов, накопившихся в результате того, что Cray Computer не смогла продать ни одного компьютера Cray-3 за два года, прошедших со дня представления системы. As with previous designs, the core of the Cray-3 consisted of a number of "modules", each containing several circuit boards packed with parts. In order to increase density, the individual GaAs chips were not "packaged", and instead several were mounted directly with ultrasonic gold bonding to a board approximately 1 inch square. The boards were then turned over and mated to a second board carrying the electrical wiring, with wires on this card running through holes to the "bottom" (opposite the chips) side of the chip carrier where they were bonded, hence sandwiching the chip between the two layers of board. These "submodules" were then stacked four-deep and, as in the Cray-2, wired to each other to make a 3D circuit. 4x4 arrangement of "submodules"

Примерно в это же время Cray Research объявила о выпуске новой серии суперкомпьютеров CRAY T90, в которых впервые отсутствуют кабельные соединения. В этих системах, получивших на стадии разработки название Triton, количество процессоров варьировалось от 1 до 32, а максимальная производительность достигала 60 млрд. операций в секунду. По сравнению с 16- процессорными компьютерами CRAY C90, быстродействие которых достигает 16 Гфлопс, новые машины имеют в 3-5 раз лучшее соотношение производительность/стоимость. The C90 was a development of the Cray Y-MP architecture. Compared to the Y-MP, the C90 processor had a dual vector pipeline and a faster 4.1 ns clock cycle (244 MHz), which together gave three times the performance of the Y-MP processor. The maximum number of processors in a system was also doubled from eight to 16. The C90 series used the same Model E IOS (Input/Output Subsystem) and UNICOS operating system as the earlier Y-MP Model E.Cray Y-MP UNICOSoperating system The C90 series included the C94, C98 and C916 models (configurations with a maximum of four, eight, and 16 processor respectively) and the C92A and C94A (air-cooled models). Maximum SRAM memory was between 1 and 8 GB, depending on model. SRAM The D92, D92A, D94 and D98 (also known as the C92D, C92AD, C94D and C98D respectively) variants were equipped with slower, but higher-density DRAM memory, allowing increased maximum memory sizes of up to 16 GB, depending on the model.DRAM

Производитель Cray Inc., Cray Research. Класс архитектуры Многопроцессорная векторная система (несколько векторных процессоров работают на общей памяти). PVPвекторная Предшественн ики CRAY Y-MP C90, CRAY X-MP. МоделиСерия T90 включает модели T94, T916 и T932. Процессор Системы серии T90 базируются на векторно-конвейерном процессоре Cray Research с пиковой производительностью 2GFlop/s. Число процессоров Система T932 может включать до 32 векторных процессоров (до 4-х в модели T94, до 16 модели T916), обеспечивая пиковую производительность более 60GFlop/s. Масштабируем ость Возможно объединение нескольких T90 в MPP-системы. Память Система T932 содержит от 1GB до 8GB (до 1 GB в модели T94 и до 4GB в модели T916) оперативной памяти и обеспечивает скорость обменов с памятью до 800MB/sec. Системное ПОИспользуется операционная система UNICOS. CRAY T

В Японии же, Fujitsu представляет два векторных параллельных суперкомпьютера на базе КМОП-технологии : VX и VPP оснащены запатентованными БИС на КМОП-структурах, объемом памяти 8 Гбайт для модели VX и 32 Гбайт - для VPP300. При максимальной конфигурации (16 процессоров) производительность VPP300 составляет 35,2 Гфлопс, а модели VX при четырех процессорах - 8,8 Гфлопс. 1996

Компания Parsytec Computer GmbH продемонстрировала первую систему с массовым параллелизмом GC/Power Plus на базе RISC- процессоров PowerPC 601. Количество процессорных элементов в GC/Power Plus может меняться от 32 до 1024, при этом производительность составляет от 2,5 до 80 GFLOPS Machine typeRISC-based distributed-memory multi-processor ModelsParsytec GC/Power Plus Operating systemUnix on host processor, Parix (GC OS, transparent to the user) Connection structure2-D grid CompilersFortran 77, ANSI C, Pascal, Modula-2 Vendors information Web pagehttp:// ModelGC/Power Plus Clock cycle7.5 ns Theor. peak performance Per proc. (64-bits)266 Mflop/s Maximum (64-bits)... Gflop/s Main memory... GB Memory/node MB Communication bandwidth Point-to-point8.8 MB/s No. of processors

CRAY T932CRAY T932, векторно-конвейерный компьютер фирмы CRAY Research Inc. (в настоящее время это подразделение Silicon Graphics Inc.), впервые выпущенный в 1996 году. Максимальная производительность одного процессора равна почти 2 млрд. операций в секунду, оперативная память наращивается до 8Гб, дисковое пространство до 256Тб. Компьютер в максимальной конфигурации содержит 32 подобных процессора, работающих над единой общей памятью, поэтому максимальная производительность всей вычислительной системы составляет более 60 млрд. операций в секунду.Silicon Graphics Inc. В 1996 г. Cray начинает коммерческий выпуск новой модели масштабируемых суперкомпьютеров CRAY T3E с пиковой производительностью 1,2 TFLOPS. Основная характеристика, на которой акцентировали внимание разработчики, - масштабируемость, не имеющая аналогов в истории суперкомпьютеров. Минимальная конфигурация, содержащая восемь микропроцессоров, допускает увеличение их количества в 256 раз. Увеличение производительности может быть также достигнуто кластеризацией систем.

Массивно-параллельные компьютеры с распределенной памятью. Компьютеры Cray T3D и T3E используют единое адресное пространство (общая виртуальная память). По аппаратному прерыванию особого случая адресации ОС выполняет пересылку страницы с одного узла на другой. У каждого МП своя локальная память, но единое виртуальное адресное пространство. Компьютер CRAY T3D - это массивно-параллельный компьютер с распределенной памятью, объединяющий от 32 до 2048 процессоров

CRAY T3D подключается к хост- компьютеру (главному или ведущему), роль которого, в частности, может исполнять CRAY Y-MP C90. Вся предварительная обработка и подготовка программ, выполняемых на CRAY T3D, проходит на хосте (например, компиляция). Связь хост-машины и T3D идет через высокоскоростной канал передачи данных с производительностью 200 Mбайт/с. Массивно-параллельный компьютер CRAY T3D работает на тактовой частоте 150MHz и имеет в своем составе три основные компоненты: сеть межпро- цессорного взаимодействия (или по- другому коммуникационную сеть), вычислительные узлы и узлы ввода/вывода.

Five functional units make up the microprocessor: the Integer Execution Unit, a 7-stage pipeline; the Floating Point Unit, a 9-stage pipeline; the Instruction Fetch/Decode and Branch Unit; the Memory Management Unit; the Cache Control and Bus Interface Unit.

Вычислительный узел состоит из двух процессорных элементов (ПЭ), сетевого интерфейса контроллера блочных передач. Оба процессорных элемента, входящие в состав вычислительного узла, идентичны и могут работать независимо друг от друга. Процессорный элемент. Каждый ПЭ содержит микропроцессор, локальную память и некоторые вспомогательные схемы. Микропроцессор - это 64-х разрядный RISC (Reduced Instruction Set Computer) процессор ALPHA or 21164A фирмы DEC, работающий на тактовой частоте 150 MHz. Микропроцессор имеет внутреннюю кэш-память команд и кэш-память данных. Объем локальной памяти ПЭ - 8 Mслов. Локальная память каждого процессорного элемента является частью физически распределенной, но логически разделяемой (или общей), памяти всего компьютера. В самом деле, память физически распределена, так как каждый ПЭ содержит свою локальную память. В тоже время, память разделяется всеми ПЭ, так как каждый ПЭ может обращаться к памяти любого другого ПЭ, не прерывая его работы. Обращение к памяти другого ПЭ лишь в 6 раз медленнее, чем обращение к своей собственной локальной памяти.

Коммуникационная сеть Коммуникационная сеть обеспечивает передачу информации между вычислительными узлами и узлами ввода/вывода с максимальной скоростью в 140M байт/с. Сеть образует трехмерную решетку, соединяя сетевые маршрутизаторы узлов в направлениях X, Y, Z. Каждая элементарная связь между двумя узлами - это два однонаправленных канала передачи данных, что допускает одновременный обмен данными в противоположных направлениях. Коммуникационная сеть компьютера CRAY T3D организована в виде двунаправленного трехмерного тора, что имеет свои преимущества перед другими способами организации связи:

Передача данных по тору может происходить в обоих направлениях. Скорость обмена полезными данными (за вычетом управляющей информации) равна 160 Мбайт/с. Для оценки пропускной способности всей системы может использоваться "половинная" пропускная способность. В Cray T3D она составляет 78,6 Гбайт/с для 2048 процессорных элементов, а в Cray T3E - свыше 122 Гбит/с для 512 процессорных элементов при скорости передачи полезных данных от узла к узлу 480 Мбайт/с. диаметр системы

Нумерация вычислительных узлов. Каждому ПЭ в системе присвоен уникальный физический номер, определяющий его физическое расположение, который и используется непосредственно аппаратурой. Не обязательно все физические ПЭ принимают участие в формировании логической конфигурации компьютера. Например, 512-процессорная конфигурация компьютера CRAY T3D реально содержит 520 физических ПЭ, 8 из которых находятся в резерве. Каждому физическому ПЭ присваиваится логический номер, определяющий его расположение в логической конфигурации компьютера, которая уже и образует трехмерный тор. Каждой программе пользователя из трехмерной решетки вычислительных узлов выделяется отдельный раздел, имеющий форму прямоугольного параллелепипеда, на котором работает только данная программа (не считая компонент ОС). Для последовательной нумерации ПЭ, выделенных пользователю, вводится виртуальная нумерация.

Класс архитектуры Масштабируемая массивно-параллельная система, состоит из процессорных элементов (PE).массивно-параллельная МодификацииT3E-900, T3E-1200, T3E-1350 Процессорный элемент PE состоит из процессора, блока памяти и устройства сопряжения с сетью. Используются процессоры Alpha (EV5) с тактовой частотой 450 MHz (T3E-900), 600 MHz (T3E- 1200), 675 MHz (T3E-1350) пиковая производительность которых составляет 900, 1200, 1350 MFLOP/sec соответственно. Процессорный элемент располагает своей локальной памятью (DRAM) объемом от 256MB до 2GB. Число процессоровСистемы T3E масштабируются до 2048 PE. Коммутатор Процессорные элементы связаны высокопроизводительной сетью GigaRing с топологией трехмерного тора и двунаправленными каналами. Скорость обменов по сети достигает 500MB/sec в каждом направлении. Системное ПОИспользуется операционная система UNICOS/mk. Средства программирования Поддерживается явное параллельное программирование c помощью пакета Message Passing Toolkit (MPT) - реализации интерфейсов передачи сообщений MPI, MPI-2 и PVM, библиотека Shmem. Для Фортран-программ возможно также неявное распараллеливание в моделях CRAFT и HPF. Среда разработки включает также набор визуальных средств для анализа и отладки параллельных программ.MPIPVMShmemHPF

Дальнейшим развитием линии массивно-параллельных компьютеров Cray T3 является суперкомпьютер Cray XT3. Производитель Cray Inc. Класс архитектуры Массивно-параллельный суперкомпьютер. ПроцессорИспользуются двухъядерные процессоры AMD Opteron. Число процессоровВ максимальной конфигурации - до Память Каждый процессор может содержать от 1 до 8 Гбайт оперативной памяти. В максимальной конфигурации система может содержать до 239 Тбайт памяти. Системное ПОИспользуется операционная система UNICOS/lc. Средства программирования На компьютере устанавливаются компиляторы Fortran 77, 90, 95, C/C++, коммуникационные библиотеки MPI (с поддержкой стандарта MPI 2.0) и SHMEM, а также оптимизированные версии библиотек BLAS, FFTs, LAPACK, ScaLAPACK и SuperLU. Для анализа производительности системы устанавливается система Cray Apprentice 2 performance analysis tools.MPISHMEM ScaLAPACK

Fujitsu выпусакет семейство суперкомпьютеров VPP700 Series. Их конфигурация может наращиваться от базовой, включающей 8 процессорных блоков, до 256- процессорной с совокупной производительностью в 500 Гфлопс.

Производитель Fujitsu Класс архитектурыПараллельный векторный суперкомпьютер (PVP).PVP МодификацииVPP300, VPP700, VPP5000 Процессорный элемент Каждый процессорный элемент (PE) системы VPP700E состоит скалярного устройства (SU), векторного устройства (VU), блока памяти и устройства сопряжения. Для VPP700: VU состоит из 7 конвейеров и обеспечивает пиковую производительность до 2.4 GFLOP/sec. Объем памяти - до 2GB. Для VPP5000: VU состоит из 4 конвейеров, пиковая производительность GFLOP/sec. Объем памяти - до 16GB. Масштабируемость Для VPP700: cистема может включать от 8 до 256 PE, суммарная пиковая производительность до 14.4 GFLOP/sec Для VPP5000: до 512 PE, суммарная пиковая производительность до 4.9 TFLOP/sec. Коммутатор Процессорные элементы связаны коммутатором (crossbar network), который производить двухсторонние обмены, не прерывая вычислений. Пропускная способность каналов коммутатора: для VPP MB/sec, для VPP GB/sec. Системное ПО Используется операционная система UXP/V, основанная на UNIX System VR4.операционная система Средства программирования Среди средств разработки поставляются: распараллеливающий и векторизующий компилятор Fortran90/VPP, оптимизированная для VPP библиотека математических подпрограмм SSLII/VPP, библиотеки передачи сообшений MPI-2 и PVM 3.3.средств разработки

1997г. может быть отмечен, как появлением корпорации Sun Microsystems на рынке суперкомпьютеров. Предпосылкой для этого служит выпуск нового семейства Ultra-Sparc III, на базе которого Sun планирует выпустить системы. При этом следует отметить, что Sun отдала предпочтение SMP (симметричной многопроцессорной) архитектуре : так, cуперкомпьютер UltraHPC может быть сконфигурирован на базе 64 процессоров Ultrasparc II (250 Mhz) и способен обеспечивать производительность до 32 Gflops; в то время, как большинство производителей суперЭВМ исповедуют NUMA (архитектура с неоднородным доступом к памяти).

HP ExemplarHP Exemplar, компьютер с кластерной архитектурой от Hewlett-Packard Inc. В частности, модель V2250 (класс V) построена на основе микропроцессора PA-8200, работающего с тактовой частотой 240MHz. До 16 процессоров можно объединить в рамках одного узла с общей оперативной памятью до 16Гб. В свою очередь узлы в рамках одной вычислительной системы соединяются между собой через высокоскоростные каналы передачи данных.Hewlett-Packard 1997

Производитель Hewlett-Packard, подразделение высокопроизводительных систем. КлассМногопроцессорные сервера с общей памятью (SMP).SMP ПредшественникиSMP/NUMA-системы Convex SPP-1200, SPP-1600, SPP Модификации В настоящее время доступны несколько "классов" систем семейства HP 9000: сервера начального уровня (D,K-class), среднего уровня ( N-class) и наиболее мощные системы (V-class). Процессоры 64-битные процессоры c архитектурой PA-RISC 2.0 (PA-8200, PA-8500).PA-8200 Число процессоров N-class - до 8 процессоров. V-class - до 32 процессоров. В дальнейшем ожидается увеличение числа процессоров до 64, а затем до 128. Масштабируемость SCA-конфигурации (Scalable Computing Architecture) - до 4 узлов V-class, т.е. до 128 процессоров. Системное ПО Устанавливается операционная система HP-UX (совместима на уровне двоичного кода с ОС SPP-UX компьютеров Convex SPP). Средства программирования HP MPI - реализация MPI 1.2, оптимизированная к архитектуре Exemplar. Распараллеливающие компиляторы Fortran/C, математическая библиотека HP MLIB. CXperf - с редство анализа производительности программ.CXperf Обзор Обзор архитектуры серверов HP 9000 класса V корпорации Hewlett-Packard

В 1997 году американская компания Intel выпустила суперкомпьютер ASCI Red, первую в мире систему с быстродействием более одного триллиона операций в секунду, точнее, терафлопс. Суперкомпьютеры этой фирмы сохраняли первенство еще два года, но в 2000 году их опередил компьютер ASCI White корпорации IBM, установленный в Ливерморской лаборатории\Lawrence Livermore National Laboratory (проводит исследования в ядерной сфере), который ежесекундно производил 4 трлн. 938 млрд. вычислений (4.938 терафлопс). Он оставался мировым лидером и год спустя, причем после ряда модификаций его скорость дошла до терафлопс. Однако в апреле 2002 года японская коррпорация NEC запустила свой специализированный суперкомпьютер Earth Simulator, который достиг максимальной скорости терафлопс. Вплоть до недавнего времени эта машина сохраняла титул самого быстрого компьютера нашей планеты.IntelIBM

The machine is organized into a large pool of compute nodes in the center, two distinct blocks of nodes at either end, and two one- Tbyte disk systems. The end-blocks and their disk systems can be isolated from the rest of the machine by disconnecting the X- mesh cables in the disconnect cabinets (marked with an X in Figure 1) ASCI RED

ASCI RED, детище программы Accelerated Strategic Computing Initiative, - это самый мощный на г компьютер. Построенный по заказу Министерства энергетики США, он объединяет 9152 (!) процессоров Pentium Pro, имеет 600Гб суммарной оперативной памяти и общую производительность 1800 миллиардов операций в секунду. Человеку потребовалось бы лет, чтобы даже с калькулятором выполнить все те операции, которые этот компьютер делает за 1 секунду! Accelerated Strategic Computing Initiative

Compute Nodes 4,536 Service Nodes 32 Disk I/O Nodes 32 System Nodes (Boot) 2 Network Nodes (Ethernet, ATM) 10 System Footprint 1,600 Square Feet Number of Cabinets 85 System RAM 594 Mbytes Topology 38x32x2 Node to Node bandwidth - Bi-directional 800 Mbytes/sec Bi-directional - Cross section Bandwidth 51.6 Gbytes/sec Total number of Pentium Pro Processors 9,216 Processor to Memory Bandwidth 533 Mbytes/sec Compute Node Peak Performance 400 MFLOPS System Peak Performance 1.8 TFLOPS RAID I/O Bandwidth (per subsystem) 1.0 Gbytes/sec RAID Storage (per subsystem) 1 Tbyte

Смена лидеров рейтинга суперкомпьютеров произошла во второй половине осени 2004 года. 29 сентября на первое место вышел суперкомпьютер фирмы IBM Blue Gene/L, который во время тестовой прогонки достиг скорости терафлопс. Этот рекорд, однако, продержался меньше месяца. 26 октября НАСА\NASA сообщила, что его новый суперкомпьютер Columbia, названный в честь погибшего в феврале 2003 года шаттла, выполнил серию вычислений со скоростью 42.7 терафлопс. Буквально через несколько дней стало известно, что тот же самый компьютер (построенный фирмой Silicon Graphics) дошел до быстродействия терафлопс. Однако в начале ноября звание абсолютного рекордсмена вновь завоевал Blue Gene/L, который корпорация IBM построила по заказу Министерства Обороны США\Department of Defense. В настоящее время максимальная скорость его работы составляет терафлопс, в силу чего он и занимает первое место в новейшем рейтинге суперкомпьютеров. Columbia стоит там на втором месте, а Earth Simulator - на третьем. Четвертая позиция принадлежит барселонскому компьютеру MareNostrum (20.53 терафлопс). IBM

Суперкомпьютер IBM BlueGene/L в Lawrence Livermore National Laboratory достиг на тесте Linpack производительности Tflop/s.IBM BlueGene/L Суперчемпион компьютерного мира пока что проходит окончательную отладку на заводе фирмы IBM в штате Миннесота, однако вскоре его установят в Ливерморской лаборатории. Сейчас Blue Gene/L оснащен процессорами, но со временем их число вырастет в четыре раза. Расчеты показывают, что после такой модернизации компьютер сможет достичь быстродействия 360 терафлопс. Это означает, что рубеж в 1 петафлопс может быть перейден уже в ближайшие годы.IBM Блок-схема чипа Blue Gene/L, содержащая два ядра PowerPC 440чипа

Каждый чип Blue Gene/P состоит из четырёх процессорных ядер PowerPC 450 с тактовой частотой 850 МГц. Чип, 2 или 4 ГБ оперативной памяти и сетевые интерфейсы образуют вычислительный узел суперкомпьютера. 32 вычислительных узла объединяются в карту (Compute Node card), к которой можно подсоединить от 0 до 2 узлов ввода-вывода. Системная стойка вмещает в себя 32 таких карты.PowerPC 450 Конфигурация Blue Gene/P с пиковой производительностью 1 петафлопс представляет собой 72 системные стойки, содержащие 294,912 процессорных ядер, объединённых в высокоскоростную оптическую сеть. Конфигурация Blue Gene/P может быть расширена до 216 стоек с общим числом процессорных ядер 884,736, чтобы достигнуть пиковую производительность в 3 петафлопса. В стандартной конфигурации системная стойка Blue Gene/P содержит 4,096 процессорных ядер. [2] [2]

TOP 10 Systems - 11/ Tianhe-1A - NUDT TH MPP, X Ghz 6C, NVIDIA GPU, FT C 2Jaguar - Cray XT5-HE Opteron 6-core 2.6 GHz 3Nebulae - Dawning TC3600 Blade, Intel X5650, NVidia Tesla C2050 GPU 4 TSUBAME HP ProLiant SL390s G7 Xeon 6C X5670, Nvidia GPU, Linux/Windows 5Hopper - Cray XE6 12-core 2.1 GHz 6Tera Bull bullx super-node S6010/S Roadrunner - BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz, Voltaire Infiniband 8Kraken XT5 - Cray XT5-HE Opteron 6-core 2.6 GHz 9JUGENE - Blue Gene/P Solution 10Cielo - Cray XE6 8-core 2.4 GHz

Тяньхэ-1А Спонсоры Национальный университет оборонных технологийНациональный университет оборонных технологий (Китайская Народная Республика)Китайская Народная Республика Местонахождение Национальный суперкомпьютерный центр, Тяньцзинь [1]Тяньцзинь [1] Архитектура Гибридная архитектура CPU + GPU: 7168 графических процессоров Nvidia Tesla M2050, серверных процессоров Intel [2]Nvidia Tesla M2050 Intel [2] Мощность 4,04 МВтМВт Скорость 2,57 петафлопспетафлопс

Tesla название семейства вычислительных систем NVIDIA на основе графических процессоров с архитектурой CUDA, которые могут быть использованы для научных и технических вычислений общего назначения.NVIDIA графических процессоровCUDA В настоящее время существует 3 модели Tesla: Tesla C870 карта для рабочих станции (1 GPU) Tesla D870 приставной суперкомпьютер (2 GPU) Tesla S870 сервер (4 GPU) и модели с одинарной и двойной точностью операций с плавающей запятой: Tesla C1060 карта для рабочих станции (1 GPU) Tesla S1070 сервер (4 GPU) Tesla C2050 карта для рабочих станции (1 GPU) Tesla C2070 карта для рабочих станции (1 GPU) Tesla S2050 сервер (4 GPU) программно-аппаратная архитектура, позволяющая производить вычисления с использованием графических процессоров NVIDIA, поддерживающих технологию GPGPU (произвольных вычислений на видеокартах)графических процессоровNVIDIA GPGPU

Xeon Центральный процессор Центральный процессор Xeon (произносится: Зион, а в русской транслитерации как Ксеон Название Pentium II Xeon Pentium III Xeon Xeon DP Xeon MP LV-Xeon DP Xeon DP Xeon MP Xeon DP Ядро (кодовое имя) Частота ядра, МГц Частота шины / теоретическая пропускная способность Drake МГц / 800 МБ/с Tanner МГц / 800 МБ/с Cascades МГц / 1066 МБ/с Cascades 2MB МГц / 800 МБ/с Foster МГц / 3,2 ГБ/с Foster MP МГц / 3,2 Гб/с Prestonia МГц / 3,2 ГБ/с Prestonia МГц / 4,2 ГБ/с Gallatin МГц / 4,2 ГБ/с Gallatin МГц / 3,2 ГБ/с Nocona МГц / 6,4 ГБ/с Socket 604 Irwindale МГц / 6,4 ГБ/с Slot 2 Socket 603 Socket 603 Socket 604 Socket 604 Socket 603 Socket 604 Техно- логия, мкм 0,25 0,18 0,13 0,09 Напря- жение питания, В 2,0 2,8 1,75 1,3 1,5 1,525 1,325 1,25-1,388 [править] Ядро Nehalemправить

По каким направлениям идет развитие высокопроизводительной вычислительной техники в настоящее время? Таких направлений четыре. 1. Векторно-конвейерные компьютеры. Особенностью таких машин являются, во-первых, конвейерные функциональные устройства и, во- вторых, набор векторных инструкций в системе команд. В отличие от традиционного подхода, векторные команды оперируют целыми массивами независимых данных, что позволяет эффективно загружать доступные конвейеры. Типичным представителем данного направления является линия векторно-конвейерных компьютеров CRAY компании Cray Research.Векторно-конвейерные компьютеры

Массивно-параллельные компьютерыМассивно-параллельные компьютеры с распределенной памятью. Идея построения компьютеров этого класса тривиальна: возьмем серийные микропроцессоры, снабдим каждый своей локальной памятью, соединим посредством некоторой коммуникационной среды, например, сетью - вот и все. Достоинств у такой архитектуры масса: если нужна высокая производительность, то можно добавить еще процессоров, а если ограничены финансы или заранее известна требуемая вычислительная мощность, то легко подобрать оптимальную конфигурацию. Однако есть и решающий "минус", сводящий многие "плюсы" на нет. Дело в том, что межпроцессорное взаимодействие в компьютерах этого класса идет намного медленнее, чем происходит локальная обработка данных самими процессорами. Именно поэтому написать эффективную программу для таких компьютеров очень сложно, а для некоторых алгоритмов иногда просто невозможно. К данному классу можно отнести компьютеры Intel Paragon, IBM SP1, Parsytec, в какой-то степени IBM SP2 и CRAY T3D/T3E, хотя в этих компьютерах влияние указанного минуса значительно ослаблено. К этому же классу можно отнести и сети компьютеров, которые все чаще рассматривают как дешевую альтернативу крайне дорогим суперкомпьютерам.T3Eсети компьютеров

Параллельные компьютеры с общей памятью. Вся оперативная память таких компьютеров разделяется несколькими одинаковыми процессорами. Это снимает проблемы предыдущего класса, но добавляет новые - число процессоров, имеющих доступ к общей памяти по чисто техническим причинам нельзя сделать большим. В данное направление входят многие современные многопроцессорные SMP-компьютеры, например, сервер HP T600 или Sun Ultra Enterprise 5000.компьютеры с общей памятью Последнее направление, строго говоря, не является самостоятельным, а скорее представляет собой комбинации предыдущих трех. Из нескольких процессоров, традиционных или векторно-конвейерных, и общей для них памяти сформируем вычислительный узел. Если вычислительной мощности полученного узла не достаточно, то объединим несколько узлов высокоскоростными каналами. Подобную архитектуру называют кластерной, и по такому принципу построены CRAY SV1, HP Exemplar, Sun StarFire, NEC SX-5, последние модели IBM SP2 и другие. Именно это направление является наиболее перспективным в настоящее время.кластернойSV1ExemplarStarFireSX-5SP2