Е. Новодворский (ПИЯФ, Гатчина) GRID - некоторая аналогия с электрическими сетями (power grid), предоставляющими всеобщий доступ к электрической мощности. NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Что такое Grid?
Предпосылки Экстенсивное развитие - простое увеличение мощности процессоров, емкости накопителей, пропускной способности каналов практически исчерпало свои ресурсы Необходим качественный, концептуальный скачок в вычислениях (мощности по требованию). Разработки в этом направлении ведут как академические учреждения, так и компании … IBM вычисления по требованию (on-demand computing) реализуют идеи распределения ресурсов по потребности. автономные вычисления (autonomic computing) должна повысить надежность и управляемость вычислительных систем, снизив при этом сложность их эксплуатации. NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Предпосылки
Вначале считалось, что Grid будет использоваться в основном для задействования простаивающих вычислительных компьютерных ресурсов с учетом нужд существующего ПО. Сейчас стало ясно, что 80–90% ПО составляют совершенно новые приложения,которые вообще не были бы возможны без Grid.. Пример У одного немецкого банка процедура расчета инвестиционных рисков занимала 13 часов. Теперь, с использованием технологии Grid на Unix кластере, они рассчитывают риски каждые 15 минут. Банк никогда бы не купил компьютер достаточной для таких расчетов мощности и смог позволить себе такую услугу только благодаря технологии Grid. NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г.
История Грид Начало 90-х - идея создать из многочисленных суперкомпьютерных центров США очень большой Метакомпьютер, так чтобы пользователи могли получать практически неограниченные ресурсы для вычислений и хранения данных. ЦЕРН инициатор создаения системы распределенных компьютерных вычислений GRID. Первая фаза проекта GRID для ускорителя LHC (Большой адронный коллайдер - Large Hadron Collider) была одобрена на Совете ЦЕРН. Четыре гигантских детектора этого ускорителя будут накапливать больше чем 10 миллионов гигабайт данных в течение каждого года о событиях, происходящих при столкновении частиц. Это эквивалентно содержанию, примерно, 20 миллионов компьютерных компакт-дисков. Почти 10 тысяч ученых из сотен университетов мира группируются в виртуальные сообщества, чтобы анализировать данные с ускорителя LHC. За одну секунду на экспериментальных установках этого ускорителя будет происходить более одного миллиарда соударений. NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г.
~9 km LHC SPS CERN NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. LHC
LHC эксперименты
но они имеют тенденцию быть специализированными системами, предназначенными для целей одного или группы пользователей NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Распределенные вычисления уже существуют,
Разные типы ресурсов Не всегда одинаковые оборудование, данные и приложения Разные типы взаимодействий Группы пользователей или приложений хотят взаимодействовать с Grid разными способами Динамичная природа Ресурсы и пользователи часто добавляются/удаляются/изменяются NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Grid идет дальше и принимает во внимание:
Если нельзя считать в миллион раз быстрее, то можно считать медленно, но на миллионе компьютеров одновременно. Вести расчеты сразу на многих компьютерах можно и через Интернет, но для этого вы должны сначала договориться с владельцами компьютеров. Включаясь в Grid, вы изначально отдаете все свои свободные вычислительные мощности в общее пользование. Grid в качестве Интернета-2 намного удобнее и эффективнее. Подключившись к Grid, человек превращает свой самый обычный, дешевый компьютер в супермашину с астрономическими возможностями. NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Суть идеи
Объединенные сетью центры обработки данных и соответствующее программное обеспечение middleware как элемент, связывающий ресурсы Пользователи используют ресурсы, общаются с коллегами, имеют доступ к данным независимо от своего местоположения. Научные инструменты и эксперименты поставляют огромные массивы данных NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Взгляд на GRID
создание компьютерной инфраструктуры нового типа, обеспечивающей глобальную интеграцию информационных и вычислительных ресурсов на основе управляющего и оптимизирующего программного обеспечения (middleware) нового поколения. создание набора стандартизированных служб для обеспечения надежного, совместимого, дешевого и всепроникающего доступа к географически распределенным высокотехнологичным информационным и вычислительным ресурсам - отдельным компьютерам, кластерам и суперкомпьютерным центрам, хранилищам информации, сетям, научному инструментарию и т.д. междисциплинарный характер GRID. Имеется довольно много общего в вычислительных потребностях различных областей научных исследований - развиваемые технологии применяются в физике высоких энергий, космофизике, микробиологии, экологии, метеорологии, различных инженерных приложениях. NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Концепция GRID
виртуализация ресурсов концепция разделения и совместного использования логических и физических устройств в сети. среда, в которой объединены находящиеся в разных местах глобальной телекомунникационной сети вычислительные установки и которая предназначена для выполнения распределенных приложений, использующих ресурсы этих установок. технология распределенных вычислений в Интернете опирается и развивает традиционные технологии Интернет впервые серьезно ставится вопрос о гарантированном качестве обслуживания. третье поколение Интернета. Второе поколение - взаимодействие между двумя компьютерами: с одного мы можем присоединиться к другому и осуществить некую транзакцию. Третье поколение - со своего компьютера вы сможете заставить работать на себя сеть компьютеров. NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Технология Grid
Не изменное увеличение производительности микропроцессоро в Можно купить много-гигафлопную системуменее чем за 800 Желание расширить границы научного открытия вычислительным анализом и моделированием e-Science Доступность надежной высоко скоростной сети В Европе сеть GEANT связывает 32 страны со скоростью до 10Gbps ( и выше ) В UK прошли от 100Mbps -> 10Gbps с 2000 г 1Gbps обычно доступны для настольных систем NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. На чем стоит Грид традиционные технологии Интернет
Gilder (32X в 4 года) Storage (16X в 4 года) Moore (5X в 4 года) Triumph of Light – Scientific American. George Stix, January 2001 Производительность на доллар Оптический кабель (биты в секунду) Емкость чипов (# транзисторы) Хранение данных (биты на кв. дюйм) Годы Удвоение времени (месяцы) NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г.
новое направление, позволяющее использовать вычислительную мощность и системы хранения данных в гетерогенных системах. NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. GRID
GRID NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Что характеризует Грид?
Гетерогенные ресурсы Собственность организаций и индивидуумов Потенциальная недоступность ресурсов Различные требования безопасности Географическая распределенность Различные политики управления ресурсами Соединение гетерогенных многоуровневых сетей NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Что характеризует Grid систему?
Нужно разделять данные между тысячами ученых с разными интересами Нужно быть уверенным в том, что все данные доступны всегда и везде Нужна масштабируемость и надежность в течение более, чем 10 лет Нужны копии при разных политиках доступа Нужна гарантия безопасности данных NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Проблемы
Grid позволяет вдохнуть новую жизнь в уже существующие технологии. Grid является основой для новых приложений, ранее не реализуемых. NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Итак
Ускоритель CERN UK Science Grid Национальный маммографический проект в Великобритании Молекулярная биологии для моделирования структуры белка, анализа последовательностей ДНК …. Бизнес нефтяная отрасль, геологоразведка В банковском деле В автомобильной промышленности Grid позволяет ускорить и удешевить расчет виртуальных крэш-тестов Airbus и Boeing используют технологию для постоянного контроля состояния двигателей и других агрегатов и узлов самолета - показания датчиков, непрерывно собирающих информацию, через спутник передаются на землю, где анализируются в сетях Grid В телекоммуникационной отрасли потенциальной областью использования Grid являются онлайновые игровые системы, такие, как Butterfly.net IBM активно использует технологию Grid для внутренних нужд (моделирование при создании микропроцессоров следующих поколений, таких, как Power5 и Power6 NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Сегодня Grid широко применяется
Distributed.net - решение крупных переборных задач. GIMPS - поиск простых чисел Мерсенна (т.е. простых чисел вида 2 P -1). С начала проекта было найдено 4 таких простых числа. SETI - поиск внеземных цивилизаций с помощью распределенной обработки данных, поступающих с радиотелескопа. Для участия в проекте зарегистрировались около 920 тыс. человек. TERRA ONE - объединение персональных компьютеров, подключенных к Интернет, для решения задач анализа информации, предоставляемой различными заказчиками. Legion - разработка объектно-ориентированного программного обеспечения для построения виртуальных мета-компьютеров, включающих до нескольких миллионов хостов, объединенных высокоскоростными сетями. Condor - распределяет независимые подзадачи по существующей в организации сети рабочих станций, заставляя компьютеры работать в свободное время Globus - построение инфраструктуры для "computational grids", включающей в себя вычислительные системы, системы визуализации, экспериментальные установки. В рамках проекта проводятся исследовании по построению распределенных алгоритмов, обеспечению безопасности и отказоустойчивости мета-компьютеров. EU Data GRID (EDG) - для физики высоких энергий, биоинформатики и системы наблюдений за Землей. NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Некоторые GRID-проекты
Прикладной уровень для каждого класса задач имеет свои особенности и предполагает взаимодействие с другими уровнями модели с использованием либо стандартных либо собственных средств и сервисов (например, на основе наборов SDKs и интерфейсов APIs) NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Applications (Приложения)
Физика высоких энергий (симуляция, реконструкция, анализ, …) Медицина/Здравоохранение (отображение, диагностика и лечение) Биоинформатика (геном человека, …) Нанотехнологии (разработка новых материалов на молекулярном уровнe, …) Инженерия (авиационная безопасность, …) Природные ресурсы и Окружающая среда (прогноз погоды, …) NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Приложения Грид
Телекоммуникационный центр "Наука и общество" Биологи: Институт молекулярной биологии РАН Институт биологии гена РАН Институт биомедицинской химии РАМН Физики: Институт теоретической и экспериментальной физики НИИ ядерной физики МГУ Институт Космических исследований РАН Объединённый институт ядерных исследований (Дубна) Институт физики высоких энергий (Протвино) Петербургский Институт Ядерной Физики (Гатчина) Химики: Институт химической физики РАН Институт органической химии РАН Медики: Институт иммунологии МЗ Институт вирусологии РАМН Институт биохимии РАМН Институт вакцин и сывороток РАМН Научный центр хирургии РАМН Международный институт теории прогнозов NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Российские Grid
GRID Распределенная программно-аппаратная компьютерная среда, с принципиально новой организацией вычислений и управления потоками заданий и данных. Такая компьютерная инфраструктура предназначена для объединения вычислительных мощностей различных организаций. На основе технологии GRID Формируются региональные и национальные вычислительные компьютерные инфраструктуры для создания объединенных интернациональных ресурсов, предназначенных для решения крупных научно-технических задач. В идеальном случае пользователя не будет интересовать где находятся используемые им ресурсы. NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Краткий обзор структуры GRID
Среди основных направлений использования GRID на данный момент можно выделить : организация эффективного использования ресурсов для небольших задач, с утилизацией временно простаивающих компьютерных ресурсов; распределенные супервычисления, решение очень крупных задач, требующих огромных процессорных ресурсов, памяти и т.д.; вычисления с привлечением больших объемов географически распределенных данных, например, в метеорологии, астрономии, физике высоких энергий; коллективные вычисления, в которых одновременно принимают участие пользователи из различных организаций. NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Цели создания инфраструктуры GRID
Cвязь Взаимодействие в GRID-среде может происходить в самых разных режимах: от передачи сообщений точка-точка до широкого вещания, причем, такие приложения как, например, управление инструментами могут одновременно использовать несколько режимов. Информационное обслуживание Безопасность Безопасность в GRID-среде включает вопросы аутентификации, авторизации, разграничения прав и пр. Пользователь аутентифицирует себя всего один раз за сессию, создавая мандат, по которому процессы получают ресурсы от имени пользователя без какого-либо его дополнительного вмешательства. Управление ресурсами – обнаружение и выделение ресурсов аутентификация авторизация создание процессов другие действия по подготовке ресурсов к использованию в сетевом приложении. Локальное управление ресурсами и заданиями. NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Задачи инфраструктуры GRID
Предоставление информации : –Самой Grid Главным образом для пакетов middleware Пользователь может запросить её, чтобы понять состояние Grid –Приложению Grid Для пользователей Гибкая инфраструктура –Возможность справиться с узлами в распределенной среде с ненадежной сетью –Динамическое дополнение и удаление информационных источников –Система безопасности способна адресовать доступ к информации на высоком уровне степени детализации –Возможность определить новые типы данных –Масштабируемость –Хорошая производительность –Стандартизация NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Информационное обслуживание
Безопасность важна для Grid: –В частности в коммерции Вопрос безопасности должен быть решен с самого начала Безопасность Grid основывается на PKI - Public Key Infrastructure (или асимметричная криптография) –Требования: аутентификация и авторизация Базовые точки: –Пользователи – CA (Certificate Authorities) – провайдер ресурсов Мы должны решить вопросы безопасности с самого начала, но решим что с ней делать позже NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Безопасность
Пользовательский интерфейс (UI) Служба информации (IS) Вычислительный элемент (CE) Элемент хранения (SE) Каталог реплик (RC,RLS) Брокер ресурсов (RB) NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Важные термины Грид принимает задание от пользователя согласует требования к ресурсам, содержащиеся в описании задания, с имеющимися в наличии свободными ресурсами и направляет задание на подходящий сайт. обеспечивает единообразный доступ к любым накопителям данных. Может управлять дисковыми массивами, массовой памятью и т.п. Скрывает детали и обеспечивает единообразный доступ к данным. выполняет фактические вычисления, на нем установлено программное обеспечение для выполнения заданий конечных пользователей. Поддерживает базу данных о местах хранения оригинальных файлов и всех их копий.
Пользователь должен быть членом виртуальной организации (ВО) ВО –Контролирует доступ к CE, SE –Обычно включает географически распределенных людей –Знает, кто что делает и кому нельзя это делать… Безопасность. Примеры ВО: –HEP коллаборации, биологи, астрономы,… NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Виртуальные организации много организаций, объединённых для решения проблем в режиме скоординированного распределения своих ресурсов
Вычислительные ресурсы: функции определения типа Hardware и Software; механизмы запуска программ, мониторинга, управления завершением программ; состояния загрузки процессоров, очередей и т.п. Ресурсы файловой памяти: механизмы приема/передачи файлов (включая возможности компрессии); средства резервирования и освобождения файлового пространства; функции определения типа Hardware и Software; мониторинг доступного пространства и скоростей обмена. Сетевые ресурсы: механизмы определения и назначения ресурсов (включая запросы на приоритеты и резервацию). Хранилище кодов: Специализированный ресурс для работы с различными версиями исходных и объектных кодов. Каталоги: Специализированный ресурс для работы с порядком доступа и обновлением каталогов (например, реляционные базы данных). Снятие или ограничение делегированных прав). NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Ресурсы
Обслуживание директорий (определение участниками доступных ресурсов VO и/или их свойств) Службы приписки, планирования и выделения ресурсов Службы мониторинга и диагностики ресурсов Службы репликации данных (обеспечение наивысшей производительности при доступе к данным – время реакции, надежность, стоимость) Средств контроля и корректировки загрузки ресурсов Службы определения и выбора оптимальных версий Software для различных вычислительных платформ Серверов авторизации (проведение политики выделения ресурсов и политики безопасности) Службы подсчета потребленных ресурсов (в т.ч. для оплаты) Службы поддержки больших коллабораций NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Координация глобальных ресурсов
Уровень приложения Грид Коллективные сервисы Грид серисы Сервисы ресурсов Инфраструктура ресурсов Grid Приложения GLOBUS CondorG MIDDLEWARE Приложения NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Структура ПО Грид
NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Middleware
Обеспечивает общие услуги Grid Информация Управление Заданиями Управление Данными Безопасность Регистрация Мониторинг NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Middleware
Сервисы ресурсов Управление ресурсами Управление конфигурацией Управление конфигурацией Мониторинг и отказоустойчивость Инсталляция узлов & управление Инсталляция узлов & управление Управление хранением NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Ресурсы определение состояния ресурсов (конфигурация, текущая загрузка, политика – например, стоимость) определение условия доступа к ресурсам, включая качество обслуживания, резервирование, формы оплаты и т.д.
Грид сервисы Сервисы баз данных Сервисы СЕ Сервисы SE Каталог реплик Авторизация Аутентификация и права доступа Авторизация Аутентификация и права доступа NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Грид сервисы
Общие сервисы Планировщик Управление репликами Информация и мониторинг Информация и мониторинг NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Общие сервисы
The grid software stack – Application layer Уровень приложений Грид Управление заданиями Управление данными Управление данными Управление метаданными NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г.
European DataGrid (EDG) LHC Computing GRID (LCG)cern.ch/lcg CrossGRID DataTAG GridLab EUROGRID EGEE public.eu-egee.org RDIG NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г. Полезные ссылки
Спасибо за внимание! NA3 Induction Courses, Санкт-Петербург, 24 октября, 2006 г.