Высокопроизводительные вычислительные решения Харченко Евгений Intel, Нижний Новгород.

Презентация:



Advertisements
Похожие презентации
Лекция 6 Понятие операционных систем Учебные вопросы: 1. Характеристики ОС 2. Свободные и проприетарные ОС.
Advertisements

Help: настройка Visual Studio.Net для создания консоль-приложения на основе Intel C++ с применением OpenMP. Инструменты «Практическое параллельное программирование.
Методы построения и программное обеспечение вычислительных кластеров Дмитрий Лайком гр. 8ВМ23.
Инструменты компании Интел для разработки программного обеспечения. Дмитрий Тараканов Инженер по программному обеспечению ISDEF 2004, 17 сентября 2004.
СИСТЕМНОЕ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ. Системное программное обеспечение - это комплекс программ, которые обеспечивают эффективное управление компонентами.
Intel® Software Tools – неограниченные возможности разработки эффективных приложений Intel® Software Tools – unlimited opportunities for developing effective.
1. Теоретические основы операционных систем (планирование заданий и использования процессора, обеспечение программ средствами коммуникации и синхронизации,
Введение в параллельную обработку. Уровни параллелизма в процессорах Параллелизм данных (DLP – Data Level Parallelism) Параллелизм команд (ILP – Instruction.
1 Работа под управлением ОС Windows. 2 Темы для обсуждения 1. Что такое операционная система Что такое операционная система Понятие ОС Виды ОС 2. Операционная.
Архитектура операционной системы. Ядро и вспомогательные модули операционной системы При функциональной декомпозиции ОС модули разделяются на две группы:
Выберите процессор, соответствующий Вашим потребностям.
Современные микропроцессоры Тенденции развития. Рассматриваемые процессоры Intel Itanium 2 Intel Core 2 Duo IBM Cell.
Решения компании «Т-Платформы» для высокопроизводительных вычислений: взаимовыгодное сотрудничество отечественной науки и бизнеса.
Выполнили: Мартышкин А. И. Кутузов В. В., Трояшкин П. В., Руководитель проекта – Мартышкин А. И., аспирант, ассистент кафедры ВМиС ПГТА.
1 Диаграммы реализации (implementation diagrams).
Вычислительный портал автор:Демидов А.В. науч.рук.:Афанасьев К.Е. КемГУ.
Распределенная система мониторинга и диспетчеризации процессов гетерогенной среды студент Костюков В.В., профессор к.ф-м.н Крючкова Е.Н., АлтГТУ / ПОВТ.
Autodesk ФОРУМ ТЕХНОЛОГИИ ПРОЕКТИРОВАНИЯ Москва, 22 и 23 сентября 2010 Повышение производительности расчетных задач в Autodesk Algor при использовании.
Система фрагментированного программирования Перепелкин В.А. Всероссийская молодежная школа по параллельному программированию МО ВВС ИВМиМГ 2009 г.
История создания ОС. Семейство ОС MS Windows.. Операционная система базовый комплекс компьютерных программ, обеспечивающий управление аппаратными средствами.
Транксрипт:

Высокопроизводительные вычислительные решения Харченко Евгений Intel, Нижний Новгород

Программа Введение в HPC (high performance computing) Введение в HPC (high performance computing) Корпорация Intel и HPC-решения сегодня Корпорация Intel и HPC-решения сегодня Программные инструменты Intel для HPC Программные инструменты Intel для HPC Некоторые результаты оптимизации производительности HPC-приложений Некоторые результаты оптимизации производительности HPC-приложений

Высокопроизводительные вычисления (HPC) – это применение новых технологий для решения сложных вычислительных задач в сфере науки, инженерной деятельности и бизнеса Высокопроизводительные вычисления (HPC) – это применение новых технологий для решения сложных вычислительных задач в сфере науки, инженерной деятельности и бизнеса Системы на базе большого числа современных процессоров, объединённых в сеть для проведения масштабных вычислений Системы на базе большого числа современных процессоров, объединённых в сеть для проведения масштабных вычислений Введение в HPC

Где используются HPC- технологии: Производство: инженерный анализ (CAE) [Linux64] Производство: инженерный анализ (CAE) [Linux64] –Abaqus (Abaqus) –MSC.Nastran (MSC) –Ansys (Ansys) –LS-Dyna (LSTC) –Adina (Adina) –PAM-Crash (ESI) –Radioss (Mecalog) –PowerFlow (Exa) –Fluent (Fluent) –Star-CD (CD / Adapco) Производство: компьютерное проектирование (CAD) [Win64] Производство: компьютерное проектирование (CAD) [Win64] –Pro/E (PTC) –Unigraphics (EDS PLM) –Catia (Dassault) –SolidWorks (SolidWorks) –SolidEdge (EDS PLM) –Inventor (Autodesk) Производство: автоматизация проектирования электроники (EDA) [Linux64] Производство: автоматизация проектирования электроники (EDA) [Linux64] –VCS, Primetime, DC, Synthesis, Hercules, TetraMax (Synopsys) –Calibre, Modelsim (Mentor) –Debussy (Novas) Науки о жизни и материаловедение [Linux64] Науки о жизни и материаловедение [Linux64] –Material Studio (Accelrys) –Discovery Studio (Accelrys) –Gaussian 2003 (Gaussian) –BLAST (NCBI) –UCSF AMBER Нефтегазовая отрасль [Linux64] Нефтегазовая отрасль [Linux64] –Eclipse (Schlumberger) –ProMax (Landmark Graphics) –VIP (Landmark Graphics) –MagicEarth (GeoProbe) Создание цифровых мультимедийных ресурсов (DCC) [Linux64] Создание цифровых мультимедийных ресурсов (DCC) [Linux64] –Maya (A|W) –Renderman (Pixar) –mental ray (mental images) Инфраструктура вычислительных систем [Linux64] Инфраструктура вычислительных систем [Linux64] –Totalview (Etnus) –Vampir (Pallas) –Mathematica (Wolfram) –LSF (Platform) –MPI (Scali) –MPIch (Argonne) *Другие наименования и товарные знаки являются собственностью своих законных владельцев.

Немного из истории развития технологии высокопроизводительных вычислений 1960-е1970-е1980-е1990-е 2000-е COTSфирменныефирменныефирменные Системная плата COTSфирменныефирменныефирменныеСоединения COTSфирменныефирменныефирменные ОС, программные инструменты COTSCOTSфирменныефирменныеПамять COTSCOTSфирменныефирменныеПроцессор 2000-е 1990-е 1980-е 1970-е HPC-системы COTS (Commercial off the Shelf) – готовые технологические решения (отраслевой стандарт)

Растущая популярность симметричных мультипроцессорных и кластерных вычислительных систем Количество кластерных систем в рейтинге суперкомпьютеров TOP500 ( выросло до 149, что составляет примерно 30 процентов. 119 из них базируются на архитектуре Intel (июнь 2003 года). Кластерная система на базе 2304 процессоров Intel®Xeon с тактовой частотой 2,4 ГГц в Ливерморской национальной лаборатории (LLNL), согласно тестам производительности HPL, выполняет 7 триллионов операций с плавающей запятой (TFLOP) в секунду. 3 в рейтинге TOP500

Конструктивные кластерные блоки Обучение, Intel® Solutions Services, учебный центр ADC и т.д. Поддержка Приложение для параллельных вычислений Приложения Компиляторы, библиотеки для ускорения математических расчетов, ПО для настройки и отладки Инструменты управления Управление очередями пакетов, планировщики, мониторинг кластера, управление кластером Коммуникационные библиотеки (MPI, PVM и т.д.) ПО промежуточного уровня Аппаратные средства и программное обеспечение для межузловых соединений Межсоединения Процессорная база, физическая структура, управление аппаратными средствами и программным обеспечением и т.д. Вычислительный узел ОС и управляющее ПО на вычислительных узлах и на управляющем узле ОС Питание, охлаждение, безопасность, объединение и т.д. Среда Вы должны учитывать всю совокупность блоков, а не один компонент! Intel является зарегистрированным товарным знаком корпорации Intel и ее подразделений в США и других странах.

Программа Введение в HPC (high performance computing) Введение в HPC (high performance computing) Корпорация Intel и HPC-решения сегодня Корпорация Intel и HPC-решения сегодня Программные инструменты Intel для HPC Программные инструменты Intel для HPC –И их практическое применение –Подробнее о Intel® Threading Tools и Intel® Cluster Tools Некоторые результаты оптимизации производительности HPC-приложений Некоторые результаты оптимизации производительности HPC-приложений

Корпорация Intel и HPC-решения сегодня Стек решений Intel: Стек решений Intel: –Процессоры Itanium2 Itanium2 Xeon Xeon –Аппаратные средства –Программные инструменты для настройки и отладки высокопроизводительных приложений Intel® Compilers Intel® Compilers Лучший способ добиться высокой производительности приложений на архитектурах Интел Intel® VTune Performance Analyzers Intel® VTune Performance Analyzers Быстрый анализ узких мест производительности и способы их разрешения Intel® Performance Libraries Intel® Performance Libraries Высокооптимизированные библиотеки функций широкого спектра применения – производительность и портируемость Intel® Threading Tools Intel® Threading Tools Ускоряют и облегчают разработку многопоточных приложений Intel® Cluster Tools Intel® Cluster Tools Ускоряют и облегчают разработку MPI- приложений –Обучение Intel® Software College Intel® Software College Intel и HPC-решения

План выпуска серверных процессоров Intel® серии MP ® Производительность, надежность, готовность, масштабируемость... Процессор Intel® Itanium® 2 Процессор Intel® XeonMP Процессор Intel® Itanium® 2 (Madison) (Madison) Madison+Madison+... MontecitoMontecito Процессор Intel® XeonMP Будущие процессоры IA-32 MP Архитектура Intel® Itanium® Такт.частота 1 ГГц 180-нм технология интегр.кэш-память L3 объемом 3МБ 130-нм технология интегр.кэш-память L3 объемом 6МБ Совместим с платформами на базе процессора Intel® Itanium® нм технология интегр.кэш-память L3 объемом 9МБ Совместим с платформами на базе процессора Intel® Itanium® 2 Микроархитектура Intel® NetBurst Технология Hyper-Threading 130-нм технология; интегр.кэш-память L3 объемом 2 МБ Микроархитектура Intel® NetBurst Технология Hyper-Threading интегр.кэш-память L3 большого объема 2006 и далее Будущие направления Во второй половине десятилетия могут появиться:Во второй половине десятилетия могут появиться: ~65-нм технология ~65-нм технология ~1 млрд. транзисторов ~1 млрд. транзисторов -Многопоточность в процессорах семейства Itanium Возможное использование 1млрд. транзисторов;Возможное использование 1млрд. транзисторов; -Кэш-память L3 очень большого объема -несколько процессорных ядер в одном корпусе с совместной кэш-памятью Будущие направления Во второй половине десятилетия могут появиться:Во второй половине десятилетия могут появиться: ~65-нм технология ~65-нм технология ~1 млрд. транзисторов ~1 млрд. транзисторов -Многопоточность в процессорах семейства Itanium Возможное использование 1млрд. транзисторов;Возможное использование 1млрд. транзисторов; -Кэш-память L3 очень большого объема -несколько процессорных ядер в одном корпусе с совместной кэш-памятью 90-нм технология интегр.кэш-память L3 объемом более 9МБ Совместим с платформами на базе процессора Intel® Itanium® 2 Intel и HPC-решения

Системы на базе процессоров Itanium®2 Источник: Оценки корпорации Intel. Вся информация является предварительной и может быть изменена без уведомления. 1–2 процессора Более 45 OEM- производителей 4 процессора Более 40 OEM- производителей 8 процессоров 7 OEM- производителей 16 процессоров 6 OEM- производителей 32–128 процессоров 5 OEM- производителей Системы, предлагаемых в 2003 году OEM-производителями и многие другие Выбор в пользу решений на базе процессоров Itanium® 2

Характеристики Itanium®2 Intel, Itanium, and the Intel logo are trademarks or registered trademarks of Intel Corporation or its subsidiaries in the United States or other countries. Системная шина 128 bits 200MHz/400 MT/s 6.4 GB/s пропускной способности Caches L1 – 2X16KB - 1 clock latency L2 – 256K – 5-7 clock latency L3 - 6MB On Die– clock 32 GB/s пропускной способности Параллелизм 2 bundlesx3instruction per clock 6 integer units 2 loads and 2 stores per clock 11 issue ports Адресация 50 bit physical addressing 64 bit virtual addressing Maximum page size of 4 GB Системная шина Core 1.5 GHz L3 Cache

Архитектура процессора Itanium® 2 сегодня Параллелизм на уровне инструкций (instruction level parallelism) Параллелизм на уровне инструкций (instruction level parallelism) –Одновременное выполнение независимых инструкций –Три инструкции в пакете, обработка нескольких пакетов за processor clock –Компилятор задействует параллелизм через активную реорганизацию потока данных и управления (control and data speculation) –Большое число регистров даёт качественный скачок в устранении проблем производительности Улучшенная обработка ветвлений (branches ) Улучшенная обработка ветвлений (branches ) –Устранение ветвлений с помощью их предсказания (predication) –Уменьшение неправильно предсказанных переходов (by using branch hints) –Исполнение нескольких переходов за processor clock (multiway branch) Устранение проблем ожидания данных из памяти Устранение проблем ожидания данных из памяти –Компилятор реорганизует поток данных и управления для сокращения потерь на ожидание (control and data speculation) –Явное управление движением данных в блоках памяти Регистровая модель поддерживает компилятор Регистровая модель поддерживает компилятор –Стек регистров уменьшает затраты на вызовы функций –Переименование регистров для эффективной раскрутки циклов Эффективная поддержка вычислений с плавающей точкой Эффективная поддержка вычислений с плавающей точкой Платформы на базе процессора Itanium® 2 обеспечивают наивысшую в отрасли производительность для HPC-решений Платформы на базе процессора Itanium® 2 обеспечивают наивысшую в отрасли производительность для HPC-решений

Программа Введение в HPC (high performance computing) Введение в HPC (high performance computing) Корпорация Intel и HPC-решения сегодня Корпорация Intel и HPC-решения сегодня Программные инструменты Intel для HPC Программные инструменты Intel для HPC –И их практическое применение –Подробнее о Intel® Threading Tools и Intel® Cluster Tools Некоторые результаты оптимизации производительности HPC-приложений Некоторые результаты оптимизации производительности HPC-приложений

Программные инструменты Intel ® для HPC Программные инструменты Intel ® для HPC Intel® Compilers Intel® Compilers Лучший способ добиться высокой производительности на каждом отдельном узле кластера. Intel® debugger позволяет отлаживать кластерные приложения. на каждом отдельном узле кластера. Intel® debugger позволяет отлаживать кластерные приложения. Intel® VTune Performance Analyzers Intel® VTune Performance Analyzers Быстрый анализ узких мест производительности и способы их разрешения в рамках узла способы их разрешения в рамках узла Intel® Performance Libraries Intel® Performance Libraries Высокооптимизированные библиотеки (в том числе под семейство Itanium и Xeon) позволят приблизиться к пиковой производительности процессора Intel® Threading Tools Intel® Threading Tools Ускоряют и облегчают разработку многопоточных приложений Intel® Cluster Tools Intel® Cluster Tools Ускоряют и облегчают разработку MPI- приложений

Практическое применение инструментов Intel ® Перенесите приложение на выбранную платформу Перенесите приложение на выбранную платформу –При переходе с IA32 на Itanium надо принять во внимание некоторые хорошо известные особенности Изменившуюся длину указателя (и типа long в зависимости от ОС) Изменившуюся длину указателя (и типа long в зависимости от ОС) Изменившиеся требования к выравниванию данных Изменившиеся требования к выравниванию данных Некоторые системные функции изменились (очень немногие, в основном по типу параметров) Некоторые системные функции изменились (очень немногие, в основном по типу параметров) Новые системные headers Новые системные headers Перекомпилируйте программный код компилятором Intel со стандартными ключами Перекомпилируйте программный код компилятором Intel со стандартными ключами –Добейтесь устойчивой работы приложения Сначала на одном узле Сначала на одном узле Для проверки корректности многопоточных приложений используйте Intel® Thread Checker Для проверки корректности многопоточных приложений используйте Intel® Thread Checker –Скоро будет доступен на Linux и Itanium

Практическое применение инструментов Intel ® Используйте VTune для определения проблем производительности в рамках узла Используйте VTune для определения проблем производительности в рамках узла Измените программный код/алгоритмы Измените программный код/алгоритмы Используйте VTune для мониторинга прогресса (или регресса) Используйте VTune для мониторинга прогресса (или регресса) Замените алгоритмы вызовами библиотек Math Kernel Library для ускорения математических расчетов Замените алгоритмы вызовами библиотек Math Kernel Library для ускорения математических расчетов Используйте VTune для мониторинга прогресса Используйте VTune для мониторинга прогресса Перекомпилируйте приложение компилятором Intel с ключами оптимизации Перекомпилируйте приложение компилятором Intel с ключами оптимизации –Проверьте что проблемные участки кода были эффективно оптимизированы (с помощью репорта компилятора) –Добейтесь максимальной оптимизации с помощью опций и прагм компилятора –Проверьте с помощью VTune Теперь можно переходить на уровень кластера Теперь можно переходить на уровень кластера

Практическое применение инструментов Intel ® Добейтесь устойчивой работы приложения на уровне кластера Добейтесь устойчивой работы приложения на уровне кластера –Используйте Intel® debugger для отладки Многопоточные приложения оптимизируйте на основе анализа распараллеливания с помощью Intel® Thread Profiler Многопоточные приложения оптимизируйте на основе анализа распараллеливания с помощью Intel® Thread Profiler –Скоро будет доступен на Linux и Itanium С помощью инструмента Vampir проанализируйте эффективность работы приложения на кластере С помощью инструмента Vampir проанализируйте эффективность работы приложения на кластере –Поддерживает MPI и другие стандарты –Linux, Unix –IA32, семейство Itanium

Intel® Threading Tools Инструменты отладки и мониторинга многопоточных приложений Инструменты отладки и мониторинга многопоточных приложений –Thread Checker: проверяет корректность многопоточных приложений –Thread Profiler: анализирует производительность в аспекте организации потоков Устанавливаются на VTune ( 7.0 или 7.1 ) Устанавливаются на VTune ( 7.0 или 7.1 ) Поддерживают Поддерживают –Платформы: Семейство Intel ® IA-32 Семейство Intel ® IA-32 Для Itanium в процессе разработки Для Itanium в процессе разработки –Операционные системы: Microsoft Windows* Microsoft Windows* Для Linux в процессе разработки Для Linux в процессе разработки Поддерживают потоковые модели: Поддерживают потоковые модели: –OpenMP* –Windows* Threading API –NPTL в процессе разработки

Intel® Thread Checker 2.0 Различные режимы анализа Инструментирование исполняемых файлов Инструментирование исполняемых файлов –Сбор данных осуществляется внутри оболочки VTune –Требует наличия только исполняемых файлов программы; VTune управляет всем процессом –Позволяет анализировать (системные) библиотеки даже при отсутствии исходного кода –Не требует специальной (пере)компиляции или (пере)сборки Инструментирование на этапе компиляции Инструментирование на этапе компиляции –Компилировать с icl /Qtcheck –Более качественная информация по местонахождению в исходном коде переменных, выражений и т.д. –Производительность (сопоставление компиляции и инструментирования, анализ)

Intel® Thread Checker Список ошибок Настраиваемый Связь с исходным кодом Представление исходного кода Контекст ошибки Место ошибки Отслеживание стека вызовов функции

Intel® Thread Profiler 2.0 Для OpenMP* Собирает и отображает данные по производительности в аспекте организации потоков Собирает и отображает данные по производительности в аспекте организации потоков –Упрощает процесс отладки распараллеливания –Представляет данные по каждому потоку и региону распараллеливания –Затраты на синхронизацию, накладные расходы системы –Дисбаланс по нагрузке –Сравнение результатов разных запусков –Аппроксимация масштабируемости приложения

Intel® Thread Profiler 2.0 Для потоков Windows* Отображает данные: Отображает данные: –Критические пути исполнения программы –Распределение временных затрат по критическому пути на: Исполнение Исполнение Синхронизацию Синхронизацию Ожидание Ожидание Блокирование Блокирование –Аналогичные данные по потокам программы и уровню паралеллизма –Ассоциации потоковых событий со строками исходного кода

Intel® Thread Profiler 2.0 Для OpenMP*

Intel® Cluster Tools Vampir и Vampirtrace Vampir - инструмент анализа параллельных приложений для HPC. Он поддерживает интерфейсы Vampir - инструмент анализа параллельных приложений для HPC. Он поддерживает интерфейсы –MPI, threads, Java*, Global Array, PAPI* и custom API –Предоставляет широкий набор отображений собранных данных Vampirtrace - библиотека, предоставляющая широкие возможности конфигурирования для сбора необходимой информации. Просмотр осуществляется с помощью Vampir Vampirtrace - библиотека, предоставляющая широкие возможности конфигурирования для сбора необходимой информации. Просмотр осуществляется с помощью Vampir

Vampirtrace Обзор Библиотека Vampirtrace предназначена для профилирования MPI приложений и процессов Java. Результаты профилирования могут быть просмотрены с помощью Vampir. Библиотека Vampirtrace предназначена для профилирования MPI приложений и процессов Java. Результаты профилирования могут быть просмотрены с помощью Vampir. Vampirtrace записывает все вызовы к библиотеке MPI и все переданные сообщения, и позволяет пользователю определить собственные события для мониторинга. Vampirtrace записывает все вызовы к библиотеке MPI и все переданные сообщения, и позволяет пользователю определить собственные события для мониторинга. –При этом инструментация может быть включена и выключена во время выполнения –Мощные средства фильтрации способны ограничивать количество собранных данных Vampirtrace базируется на существующих реализациях MPI Vampirtrace базируется на существующих реализациях MPI –Требуется линковка приложения с библиотекой Чтобы определить и промониторить собственные события, либо использовать функции управления необходимо вставить в код приложения вызовы Vampirtrace API. Чтобы определить и промониторить собственные события, либо использовать функции управления необходимо вставить в код приложения вызовы Vampirtrace API. –То есть требуется перекомпиляция кода –Поддерживаются С++ и Fortran Специальная версия-заглушка, содержащая пустые версии API позволяет отключать трассировку перелинковкой. Специальная версия-заглушка, содержащая пустые версии API позволяет отключать трассировку перелинковкой.

Vampirtrace Возможности Сбор информации о Сбор информации о –Вызовах функций –Пересланных сообщениях –Коллективных операциях Дополнительные возможности Дополнительные возможности –Ассоциация событий с исходным кодом –События процессора через PAPI –Пользовательская инструментация через VT API Ассоциация событий с исходным кодом Ассоциация событий с исходным кодом Пользовательские функции и регионы в коде Пользовательские функции и регионы в коде –Регионы могут перекрываться Определение групп процессов Определение групп процессов Определение собственных счётчиков Определение собственных счётчиков Определение фреймов Определение фреймов

Vampir

Vampir Summary chart

Vampir Timeline view

Vampir Process timeline

Vampir Process timeline with associated counters

Vampir Message statistics

Vampir Дополнительные особенности Широкие возможности конфигурирования коллекторов Широкие возможности конфигурирования коллекторов Широкие возможности фильтрации данных Широкие возможности фильтрации данных Неограниченный zoom Неограниченный zoom

Программа Введение в HPC (high performance computing) Введение в HPC (high performance computing) Корпорация Intel и HPC-решения сегодня Корпорация Intel и HPC-решения сегодня Программные инструменты Intel для HPC Программные инструменты Intel для HPC Некоторые результаты оптимизации производительности HPC-приложений Некоторые результаты оптимизации производительности HPC-приложений

Результаты тестов производительности HPC-приложений Вычислительная газодинамика Вычислительная газодинамика –ПО Fluent* Создание цифровых ресурсов (Digital Content Creation, DCC) Создание цифровых ресурсов (Digital Content Creation, DCC) –Средства создания видеоэффектов высокой четкости *Другие наименования и товарные знаки являются собственностью своих законных владельцев. Результаты тестов производительности

ПО Fluent* 6.1 Fluent* 6.1 – мировой лидер среди продукции для численного моделирования газодинамических процессов Fluent* 6.1 – мировой лидер среди продукции для численного моделирования газодинамических процессов Обеспечивает уникальную гибкость распределенных сетей Обеспечивает уникальную гибкость распределенных сетей Обеспечивает возможность динамического изменения распределенных сетей для моделирования потока вокруг движущихся тел Обеспечивает возможность динамического изменения распределенных сетей для моделирования потока вокруг движущихся тел При выполнении на системах на базе процессора Itanium® 2 достигается повышение производительности в 1,6 раз При выполнении на системах на базе процессора Itanium® 2 достигается повышение производительности в 1,6 раз *Другие наименования и товарные знаки являются собственностью своих законных владельцев. Itanium является зарегистрированным товарным знаком корпорации Intel и ее подразделений в США и других странах. Результаты тестов производительности

Повышение производительности ПО Fluent* после проведения различных этапов оптимизации Примечание: последним представлен прирост производительности в системе на базе процессора Itanium® 2 Примечание: последним представлен прирост производительности в системе на базе процессора Itanium® 2 *Другие наименования и товарные знаки являются собственностью своих законных владельцев. Itanium является зарегистрированным товарным знаком корпорации Intel и ее подразделений в США и других странах. Результаты тестов производительности

Этапы оптимизации ПО Fluent* для процессора Itanium® 2 Использование конвейерной обработки команд с применением различных методов устранения неоднозначности при обращении к памяти Использование конвейерной обработки команд с применением различных методов устранения неоднозначности при обращении к памяти –Включение правил именования ANSI C (ANSI alias) –ключевое слово restrict Оптимизация с помощью профилирования Оптимизация с помощью профилирования Включение предвыборки данных Включение предвыборки данных –Встроенные средства компилятора Разворачивание циклов с небольшим количеством шагов Разворачивание циклов с небольшим количеством шагов Межпроцедурная оптимизация внутри одного файла Межпроцедурная оптимизация внутри одного файла Переупорядочивание компилятором инструкций для совершенствования выполнения операций с плавающей запятой (FP div/sqrt) Переупорядочивание компилятором инструкций для совершенствования выполнения операций с плавающей запятой (FP div/sqrt) *Другие наименования и товарные знаки являются собственностью своих законных владельцев. Itanium является зарегистрированным товарным знаком корпорации Intel и ее подразделений в США и других странах. Результаты тестов производительности

Видеоэффекты высокой четкости Характеристики профессионального приложения Характеристики профессионального приложения –Переход от решений на основе специализированных аппаратных средств к созданию эффектов на основе программного обеспечения –Телевидение и видео высокой четкости –Требуется обработка в режиме реального времени (30 фреймов/с) –Более 90% процессорного времени затрагивает ядро Пример: альфа-смешение (alpha blending) Пример: альфа-смешение (alpha blending) –8-битный режим RGBA HDTV –Разрешение дисплея 1920x1080 Повышение производительности в 11 раз Повышение производительности в 11 раз *Другие наименования и товарные знаки являются собственностью своих законных владельцев. Результаты тестов производительности

Результаты оптимизации ПО для создания видеоэффектов *Другие наименования и товарные знаки являются собственностью своих законных владельцев. Повышение производительности приложений для создания высококачественного видео (1ГГц) при выполнении на системах на базе процессора Itanium® C -O2 C -O2 (конв.обраб.) C -O2 (конв.обраб.+ мультимед. инструкции) C -O3 (SWP+ мультимед.инстр.+ предвыборка данных Этапы оптимизации Фреймы/с (большая высота столбца соответствует более высокой производительности) Itanium является зарегистрированным товарным знаком корпорации Intel и ее подразделений в США и других странах. Результаты тестов производительности

Оптимизация ПО для создания видеоэффектов высокой четкости для процессора Itanium® 2 Используйте конвейерную обработку команд Используйте конвейерную обработку команд –Исключение неоднозначности исходного и конечного расположения пикселей с использованием ключевого слова restrict Используйте мультимедийные инструкции семейства процессоров Itanium® Используйте мультимедийные инструкции семейства процессоров Itanium® –Наличие интерфейса языка высокого уровня для доступа к мультимедийным инструкциям Встроенные средства компилятора / библиотеки классов C++ Встроенные средства компилятора / библиотеки классов C++ Используйте предвыборку данных с ключом оптимизации –O3 Используйте предвыборку данных с ключом оптимизации –O3 *Другие наименования и товарные знаки являются собственностью своих законных владельцев. Itanium является зарегистрированным товарным знаком корпорации Intel и ее подразделений в США и других странах. Результаты тестов производительности

Выводы Системы на базе процессоров Itanium® 2 полностью соответствуют требованиям HPC-приложений Системы на базе процессоров Itanium® 2 полностью соответствуют требованиям HPC-приложений Оптимизация кода может обеспечить значительный прирост производительности Оптимизация кода может обеспечить значительный прирост производительности Многочисленные коммерческие программные продукты уже успешно работают на системах на базе процессоров Itanium 2 Многочисленные коммерческие программные продукты уже успешно работают на системах на базе процессоров Itanium 2 Itanium является зарегистрированным товарным знаком корпорации Intel и ее подразделений в США и других странах.

Дополнительная информация Техническая литература для разработчиков Техническая литература для разработчиков –Серии, посвященные архитектуре Itanium® Научные вычисления на системах на базе процессоров Itanium Научные вычисления на системах на базе процессоров Itanium Программирование систем на базе процессоров Itanium Разработка высокопроизводительных приложений для новой архитектуры Intel Программирование систем на базе процессоров Itanium Разработка высокопроизводительных приложений для новой архитектуры Intel Архитектура Itanium для разработчиков ПО Архитектура Itanium для разработчиков ПО Как оптимизировать приложения для выполнения на системах на базе архитектуры Itanium Как оптимизировать приложения для выполнения на системах на базе архитектуры Itanium Как обеспечить высокую точность вычислений на системах на базе архитектуры Itanium Как обеспечить высокую точность вычислений на системах на базе архитектуры Itanium Дополнительная информация: Дополнительная информация: Вы можете приобрести книги издательства Intel® Press в магазине конференции, на Web- сайте Amazon.com* или в магазинах технической литературы Вы можете приобрести книги издательства Intel® Press в магазине конференции, на Web- сайте Amazon.com* или в магазинах технической литературы Intel и Itanium являются зарегистрированными товарными знаками корпорации Intel и ее подразделений в США и других странах. *Другие наименования и товарные знаки являются собственностью своих законных владельцев.

Backup

План выпуска процессоров семейства Itanium ® Технология 0,18 мкм 0,13 мкм Процессор Intel Itanium 2 (такт частота 1,0ГГц, кэш- память объемом 3МБ) 2003 Процессор Intel Itanium 2 6M (такт частота 1,5ГГц, кэш-память объемом 6МБ) 2004 Все указанные даты являются предварительными, представлены исключительно в целях планирования и могут быть изменены без уведомления. DP MP 1,5ГГц, кэш- память объемом 9МБ) Процессор Intel Itanium 2 (такт частота 1,4 ГГц, кэш- память объемом 1,5МБ) Процессор Low Voltage Intel Itanium 2 (такт частота 1,0ГГц, кэш- память объемом 1,5МБ, 62 Вт) Процессор на базе Madison 9M Нов.модель процессора Low Voltage Intel Itanium 2, (такт частота >1,0ГГц, 62 Вт) Будущие модели процессора Itanium2 Официальный торговый знак: процессор Intel® Itanium® 2 с кэш-памятью третьего уровня объемом 6МБ. Будущие модели процессора Itanium2 HPC-версия Добавлена новая модель DP класса «high-end» Добавлена новая модель DP класса «high-end» Itanium является зарегистрированным товарным знаком корпорации Intel и ее подразделений в США и других странах. Устойчивый план выпуска процессоров для широкого диапазона систем Intel и HPC-решения

Поддержка –Материалы для самостоятельного изучения –Форумы пользователей –Программа Intel Premier Support Не полагайтесь на ограниченную поддержку, используя бесплатные версии компиляторов Не полагайтесь на ограниченную поддержку, используя бесплатные версии компиляторов –Зарегистрируйтесь на Web-странице

Обширный комплекс учебных материалов Компиляторы Анализаторы производительности Библиотеки оптимизации производительности Утилиты для анализа потоков Инструменты расширяемого интерфейса микропрограмм (EFI) Процессоры и платформы Intel®Инструменты разработки ПО Программные технологии Высокопроизводительные вычисления Hyper-Threading Кластеры Сети и коммуникации 3D-графика Java*.NET* Solution Services Web- сервисы ОС Linux* ОС Windows* Доступно свыше 100 курсов

Производительность компиляторов: тест SPEC Benchmark, архитектура IA32/ОС Windows* (б ольшая высота столбца соответствует лучшему показателю ) Компилятор Intel® 7.0 для ОС Windows*, Microsoft* Visual Studio* 7.0 и Compaq Visual Fortran* 6.6B Процессор Intel® Pentium 4 с частотой 3,05 ГГц, кэш-память L2 объемом 512 КБ, оперативная память 256 МБ, ОС Windows XP Professional MP Kernel, Build 2600 *Другие наименования и товарные знаки являются собственностью своих законных владельцев. Корпорация Intel вправе в любое время и без предварительного уведомления вносить любые изменения в спецификации, описания продукции и планы. Показатели и сравнительные уровни производительности измеряются для конкретных конфигураций вычислительных систем и/или компонентов и приближенно отражают значения производительности продукции Intel® для указанных конкретных условий. Реальные значения производительности могут изменяться в зависимости от изменений конфигурации и настроек аппаратных средств или программного обеспечения системы. При принятии решения о приобретении тех или иных систем и компонентов покупателям рекомендуется обращаться также к другим источникам информации об их производительности. Более подробную информацию о тестах производительности и производительности продукции Intel® можно найти на Web-сайте: или позвонив по телефону (в США) или Intel Microsoft* Visual C Microsoft* Visual C и Compaq Visual Fortran*

Производительность компиляторов: тест SPEC Benchmark, архитектура IA32/ОС Linux* (большая высота столбца соответствует лучшему показателю) *Другие наименования и товарные знаки являются собственностью своих законных владельцев. Корпорация Intel вправе в любое время и без предварительного уведомления вносить любые изменения в спецификации, описания продукции и планы. Показатели и сравнительные уровни производительности измеряются для конкретных конфигураций вычислительных систем и/или компонентов и приближенно отражают значения производительности продукции Intel® для указанных конкретных условий. Реальные значения производительности могут изменяться в зависимости от изменений конфигурации и настроек аппаратных средств или программного обеспечения системы. При принятии решения о приобретении тех или иных систем и компонентов покупателям рекомендуется обращаться также к другим источникам информации об их производительности. Более подробную информацию о тестах производительности и производительности продукции Intel® можно найти на Web-сайте: или позвонив по телефону (в США) или Компиляторы Intel® 7.0 для ОС Linux* и PGI* C++ и Fortran Процессор Intel® Pentium 4 с такт.частотой 3,05 ГГц, кэш-память L2 объемом 512 КБ, опер.память 256 МБ, ОС Red Hat* Linux* 8.0 Intel Компиляторы Intel® 7.0 для ОС Linux* и GCC 3.2 Процессор Intel® Pentium 4 с такт.частотой 3,05 ГГц, кэш-память L2 объемом 512 КБ, опер.память 256МБ, ОС Red Hat* Linux* 8.0 PGI GCC Intel

Современные технологии межсоединений для кластеров Ethernet, 100 Mбит/с Ethernet, 100 Mбит/с Ethernet, 1 Гбит/с Ethernet, 1 Гбит/с GigaNet* GigaNet* SCI* SCI* Myrinet* Myrinet* Infiniband* Infiniband* Crossbar (фирменная разработка) Crossbar (фирменная разработка) ccNUMA (фирменная разработка) ccNUMA (фирменная разработка) *Другие наименования и товарные знаки являются собственностью своих законных владельцев. На базе PCI-32/64

USB 2.0 (480 Мбит/с) IEEE1394/FireWire (400 Мбит/с) S-ATA (1,5 Гбит/с 3,0 Гбит/с 6,0 Гбит/с) PCI Express 2,5 ГГц: 1,6 Гбит/с /канал 32 канала: 51,2 Гбит/с Система Ethernet (1/10 Гбит/с) InfiniBand (2,5-30 Гбит/с) Новые технологии ввода-вывода: межсоединения и хранение

Производительность ПО Fluent* 6.1 в серии тестов Источник: Система на базе процессора Itanium® 2, ОС HP-UX* вер. 11.x. Компания Fluent дала разрешение на использование данной информации. Информация о серверах IBM и HP Alpha с web-сайта компании Fluent, Большая высота столбца соответствует лучшему показателю Показатели и сравнительные уровни производительности измеряются для конкретных конфигураций вычислительных систем и/или компонентов и приближенно отражают значения производительности продукции Intel® для указанных конкретных условий. Реальные значения производительности могут изменяться в зависимости от изменений конфигурации и настроек аппаратных средств или программного обеспечения системы. При принятии решения о приобретении тех или иных систем и компонентов покупателям рекомендуется обращаться также к другим источникам информации об их производительности. Более подробную информацию о тестах производительности и производительности продукции Intel® можно найти на Web-сайте: или позвонив по телефону (в США) или http://

Производительность ПО Fluent* 6.1 при симметричном многопроцессорном масштабировании Источник: Сервер HP rx5670 на базе 4 процессоров Itanium® 2 с тактовой частотой 1,5ГГц и кэш-памятью L3 объемом 6МБ, 16ГБ памяти, 4 жестких диска 73ГБ 10K U160, ОС RH Linux* 2.1 AS. Компания Fluent дала разрешение на использование данной информации. Показатели и сравнительные уровни производительности измеряются для конкретных конфигураций вычислительных систем и/или компонентов и приближенно отражают значения производительности продукции Intel® для указанных конкретных условий. Реальные значения производительности могут изменяться в зависимости от изменений конфигурации и настроек аппаратных средств или программного обеспечения системы. При принятии решения о приобретении тех или иных систем и компонентов покупателям рекомендуется обращаться также к другим источникам информации об их производительности. Более подробную информацию о тестах производительности и производительности продукции Intel® можно найти на Web-сайте: или позвонив по телефону (в США) или Большая высота столбца соответствует лучшему показателю

Производительность ПО Fluent* 6.1 при кластерном масштабировании Показатели и сравнительные уровни производительности измеряются для конкретных конфигураций вычислительных систем и/или компонентов и приближенно отражают значения производительности продукции Intel® для указанных конкретных условий. Реальные значения производительности могут изменяться в зависимости от изменений конфигурации и настроек аппаратных средств или программного обеспечения системы. При принятии решения о приобретении тех или иных систем и компонентов покупателям рекомендуется обращаться также к другим источникам информации об их производительности. Более подробную информацию о тестах производительности и производительности продукции Intel® можно найти на Web-сайте: или позвонив по телефону (в США) или Большая высота столбца соответствует лучшему показателю Источник: Серверы Intel SR870EN2 на базе 2 процессоров с тактовой частотой 1,5ГГц и кэш-памятью L3 объемом 6МБ, 1ГБ памяти и один жесткий диск 36ГБ 10k Ultra320, ОС RH Linux* 2.1 AS. Компания Fluent дала разрешение на использование данной информации.

Зачем Вам необходимо использовать инструменты Intel? Производительность, производительность, и еще раз производительность Производительность, производительность, и еще раз производительность –Конкурентные рыночные преимущества –Компилятор, анализатор производительности VTune, библиотеки оптимизации производительности, утилиты для анализа потоков… Обеспечение высокой производительности при выполнении приложений на системах на базе любых процессоров Intel® Обеспечение высокой производительности при выполнении приложений на системах на базе любых процессоров Intel® –Библиотеки Intel® оптимизированы для каждой архитектуры –Соответствующие библиотеки загружаются динамически Совместимость со средой разработки Microsoft и компилятором MSVC Совместимость со средой разработки Microsoft и компилятором MSVC Высочайший уровень поддержки Высочайший уровень поддержки *Другие наименования и товарные знаки являются собственностью своих законных владельцев.