Применение конвертируемых режимов адресации для повышения производительности сопроцессоров цифровой обработки сигналов в составе многоядерной СнК Пантелеев.

Презентация:



Advertisements
Похожие презентации
Планирование выполнения инструкций для векторных процессоров с переменной длиной векторов Пантелеев Алексей Юрьевич Национальный исследовательский ядерный.
Advertisements

Организация обмена информацией Функции устройств магистрали.
Лекция 6. Способы адресации в микропроцессорных системах.
1 Лекция 4 ФУНКЦИОНАЛЬНАЯ И СТРУКТУРНАЯ ОРГАНИЗАЦИЯ ЭВМ Информатика 2 Министерство образования и науки Российской Федерации Казанский государственный технический.
Электронная энциклопедия. Содержание Архитектура ПК Системы счисления.
Схема предсказания исключительной ситуации «потеря точности» в модуле операции «умножение с накоплением» Ивасюк Евгений Вячеславович Научно-исследовательский.
Прерывания Определение прерывания Прерывания представляют собой механизм, позволяющий координировать параллельное функционирование отдельных устройств.
ОРГАНИЗАЦИЯ ПАМЯТИ С ПАРАЛЛЕЛЬНЫМ ДОСТУПОМ К ИНФОРМАЦИИ И ЕЕ ПРИМЕНЕНИЕ Мурзин Федор Александрович.
Архитетура компьютерных систем. Архитектура системы команд как интерфейс между программным и аппаратным обеспечением Архитектура системы команд.
Дисциплина: Операционные системы § 7. Организация памяти компьютера План: 1.Физическая память компьютера. 2.Логическая память компьютера. 3.Функции системы.
Процессоры Intel в защищенном режиме. Недостатки реального режима Невозможно адресовать пространство памяти свыше 1-го Мб Невозможно работать с массивами,
Пятое Поколение и Суперкомпьютеры. Основные требования к компьютерам 5-го поколения: Создание развитого человеко-машинного интерфейса (распознавание речи,
Разработка кэша справочника для вычислительного комплекса на базе микропроцессора Эльбрус – 2S Студент : Петров Игорь, ФРТК, 613 группа Научный руководитель:
Тема 1. Общие вопросы организации микропроцессорных систем.
АРХИТЕКТУРА СОВРЕМЕННЫХ ЭВМ Лекция 11: Нейрокомпьютеры ВМиК МГУ им. М.В. Ломоносова, Кафедра АСВК Чл.-корр., профессор, д.ф.-м.н. Королёв Л.Н., Ассистент.
Московский Физико-Технический Институт Оптимизация методов умножения матриц библиотеки линейной алгебры для ВК Эльбрус-3M1 и Эльбрус-90 микро Выполнил:
Введение в параллельную обработку. Уровни параллелизма в процессорах Параллелизм данных (DLP – Data Level Parallelism) Параллелизм команд (ILP – Instruction.
Система фрагментированного программирования Перепелкин В.А. Всероссийская молодежная школа по параллельному программированию МО ВВС ИВМиМГ 2009 г.
1 ҚАЗАҚСТАН РЕСПУБЛИКАСЫ БІЛІМ ЖӘНЕ ҒАЛЫМ МИНИСТРЛІГІ МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ КАЗАХСТАН - 2 Аршалы орта мектебі Аршалынская средняя.
Выполнили: Мартышкин А. И. Кутузов В. В., Трояшкин П. В., Руководитель проекта – Мартышкин А. И., аспирант, ассистент кафедры ВМиС ПГТА.
Транксрипт:

Применение конвертируемых режимов адресации для повышения производительности сопроцессоров цифровой обработки сигналов в составе многоядерной СнК Пантелеев Алексей Юрьевич Шагурин Игорь Иванович Национальный исследовательский ядерный университет «МИФИ»

DSP-процессоры поддерживают специальные режимы адресации – Пост-инкремент (обработка массивов данных) – Адресация по модулю (кольцевой буфер) Такие режимы повышают производительность В векторных процессорах не используются – Вектора заменяют циклы и пост-инкремент – Простые режимы адресации: С заданным шагом: VecA[N] = Mem[Base + N * Step] Косвенная векторная: VecA[N] = Mem[VecB[N]] Введение 2

Простое БПФ по основанию 2: – Бит-реверсная перестановка отсчетов – Транспонирование в пространстве {0,1} N БПФ как двумерное разложение: – Бит-реверсная перестановка векторов – Транспонирование двумерной матрицы Свертка и корреляция: – Адресация векторов по некратному смещению Адресация в алгоритмах DSP 3

Формы доступа к данным в алгоритмах DSP плохо согласуются с тем, что поддерживается векторными процессорами: – Быстрое транспонирование требует поддержки косвенной векторной адресации либо произвольной перестановки данных в регистрах – Свертка требует загрузки векторных регистров на каждой итерации алгоритма – Вычисление векторов адресов требует дополнительных ресурсов процессора Проблема 4

Векторная память с несколькими банками – Число банков соответствует числу вычислительных конвейеров – По аналогии с разделяемой памятью в CUDA/OpenCL Один запрос, разные адреса для банков – Реализуются различные режимы доступа – Адреса генерируются аппаратно в соответствии с режимом и настройками – нет необходимости тратить на это инструкции – Конфликты банков невозможны Решение 5

Схема блока памяти 6

Инструкции работают с векторами из чисел Переменная длина вектора – От 1 до 256 векторных элементов – Векторный элемент – «квант» доступа в память Вектора называются «регистрами» и находятся в «сегментах» – Регистры размещаются в векторной памяти – Сегмент – независимая область памяти – В инструкциях указывается сегмент и регистр («C12») – Каждый сегмент имеет свой режим адресации Программная модель 7

5 режимов адресации: – Простой – Скалярный – Сверточный – Матричный прямой – Матричный транспонированный Переключение режима меняет представление данных – Не все режимы совместимы друг с другом Режимы адресации 8

Первая группа: простой, сверточный, скалярный – Загрузка и выгрузка – только в простом – Скалярный – только для чтения Вторая группа: матричные режимы – Загрузка и выгрузка – в любом из двух режимов – Размер матрицы – N * 2 k, измерения независимы – «Бесплатное» транспонирование матриц Режимы адресации 9

10

Размещение матриц в памяти 11 Прямой матричный режим

Размещение матриц в памяти 12 Транспонированный матричный режим

Реализация БПФ 13 Схема алгоритма для БПФ-16

БПФ в потоковом режиме 14 Представлены времена для БПФ-1024 на ВКС с 8 конвейерами

Производительность БПФ 15 При обработке БПФ на сопроцессорах с большим количеством параллельных вычислительных устройств производительность может быть ограничена передачей данных. Применение конвертируемых режимов адресации снижает объем передаваемых данных.

Сравнение производительности БПФ 16 Млн. отсчетов в секунду, лог. масштаб

Предложена система векторной памяти с поддержкой конвертируемых режимов адресации данных Плюсы: – Реализуются типичные для DSP формы доступа – «Бесплатное» транспонирование матриц Минусы: – Все рабочие данные необходимо хранить в SRAM большого объема с малым количеством портов – Схемы генерации адресов удлиняют конвейер Заключение 17

Вопросы? Адрес для связи: Спасибо за внимание! 18