Метакластерная вычислительная среда на основе Globus Toolkit Корнеев В.В.
коммуникационная среда ВМ коммутатор адаптер линк
М В С М 1 T f l o p s Микропроцессор Alpha 21264, 667 МГц, 1,3 Gflops 2-х процессорный модуль: 2,6 Gflops; общая память 2 Гбайта Базовый блок: 3 стойки, 64 2 процессоров; сеть Myrinet, 250 Мбайт/с М В С М: 768 процессоров, 120 кВА, 100 м 2 Многопроцессорная масштабируемая вычислительная с и с т е м а 2, 4 м 2, 2 м
128 портовый коммутатор Myrinet
Основная коммутационно-связная среда МВС-1000М – адаптеры-мосты: шина PCI – сеть Myrinet. БП – базовый блок, 64 2 проц. К – коммутатор, 128 каналов- -портов. Б П ККК ККК Вычислительный ресурс Колич. каналов сети по 2 Гбит/с ВАРИАНТВАРИАНТ22ВАРИАНТВАРИАНТ222
Rm- количество запросов m ВМ
Самоуправление – способность без вмешательства администратора или с минимальным его вмешательством поддерживать самоконфигурирование, самовосстановление, самооптимизацию и самозащищенность.
Самоконфигурирование – развертывание новых компонент программного обеспечения или подбор и модификация существующих для создания и поддержания работоспособной программно-аппаратной среды.
Самовосстановление – обнаружение отказавших или сбойных аппаратно- программных компонент и обеспечение возможности продолжения исполнения всех или критически важных прикладных программ.
Самооптимизация – выполнение действий по увеличению эффективности использования ресурсов, обычно выражающейся повышении интегральной загрузки ресурсов или уменьшении времени выполнения отдельных прикладных программ.
Самозащищенность – способность обнаруживать компьютерные атаки, включая вирусы, и предпринимать действия по устранению уязвимостей.
Парадигмы распределенных вычислений Сейчас для обозначения этих парадигм используются разные термины, введенные в обращение рядом компаний, в числе которых IBM, Hewlett-Packard, Sun Microsystems: grid, utility computing, computing on-demand, autonomous computing, organic computing.
Исходная позиция Каждая ВС имеет собственную политику безопасности. Каждая ВС администрируется самостоятельно. Использование ресурсов ВС только зарегистрированным в ней пользователем. ВС могут образовывать подмножества по ведомственному, географическому и др. признакам.
М М М М М М М М М
M M M M Кластер ИПМ СУПЗ Кластер «Квант» Кластер ИКСИ M Globus Internet Сетевая среда распределенных вычислений
Система управления ССРВ система мониторинга (СМ) – следит за состоянием ресурсов, контролирует требуемый состав ресурсов и режимы их функционирования, включая обнаружение компьютерных атак; система управления ресурсами (СУР) - поддерживает ресурсы в работоспособном состоянии, вводя и выводя их из обработки, обеспечивая их профилактику и ремонт. система уп равления заданиями (СУЗ) – выделяет ресурсы заданиям и управляет заданиями в процессе их выполнения
Программные продукты Entropia DCGrid 5.0 (цена в США от $50000 плюс ежегодная плата за обслуживание) Sun ONE Grid Engine, Enterprise Edition Software (до 50 процессоров цена в США $20000) United Devices MetaProcessor Platform 3.0 (средняя цена $250 за один узел сети) свободно распространяемый продукт Globus Toolkit
Функциональность Globus Управление заданиями Доставка файлов GASS GSIFTP Информационная служба MDS – Meta Directory Service GRIS – Grid Resource Information Service GIIS - Grid Information Index Service
Основные компоненты Globus GRAM - Globus Resource Allocation Manager GSI - Globus Security Infrastructure GIS - Grid Information Service GASS - Global Access to Secondary Storage
Управление заданиями в Globus globus-job-run remote.host.ru –stage script globus-job-submit remote.host.ru script remote.host.ru:1670/124540/ / globus-job-status remote.host.ru:1670/124540/ / globus-job-get-output remote.host.ru:1670/124540/ / globus-job-cancel remote.host.ru:1670/124540/ /
Копирование файлов globus-rcp /tmp/my-file remote.host.ru:/tmp/place файл /tmp/my-file будет скопирован в remote.host.ru и будет в нем именоваться /tmp/place globus-gass-server сервер host.ru будет слушать по порту Globus-url-copy file:/tmp/place
Система безопасности ССРВ Существует доверенный центр сертификации. Каждый пользователь и активный компонент системы (менеджер ресурсов) имеет сертификат стандарта X.509, подписанный доверенным центром; Аутентификация осуществляется на основании протокола SSL. Авторизация основана на отображении пользователя Grid в локальную учетную запись.
Доступ к ресурсам кластера: GRAM-LRM-cluster
Структура менеджера
Менеджер уровня 1
Запуск заданий в ССРВ
Менеджер уровня i
M M M1 6 M ) 4 2) 7 3) 1,3,5,6 1) 5 2) 3 3) 1,4,5,6,7 1) 4,7 2) 3,5 3) 1, ) 6 2) 3,5,7,4 3) 1 4) 6 4 6
Кластер 1 Host1 eth1: eth0: Node1 eth0: Node2 Кластер 2 Host2 eth0: eth0: Node1 eth0: Node2 Firewall G lobus, MPICH
Система активного мониторинга FLAME (FunctionaL Active Monitoring Environment)
Структура программы Опрашиваемые устройства – устройства, информация о состоянии которых доступна по протоколам SNMP или HTTP. Динамическая база данных – хранилище параметров устройств, расположенное на управляющей ЭВМ; кэширует все вычисляемые функции и производит опрос устройств только по мере надобности. Консоли – клиентские программные компоненты, используемые операторами для визуализации состояния и ручного управления.
Схема мониторинга Состояние комплекса = результату вычисления некоего заданного набора функций, каждая из которых зависит от ряда измеряемых параметров контролируемых устройств. Например, логическое "И" от работоспособности всех входящих в комплекс устройств.
Язык описания конфигурации сделан на основе метаязыка XML; представляет собой декларативное средство определения совокупности функций с расширяемым набором примитивов; обеспечивает возможность задавать структуру производимого XML-выхода, что позволяет обойтись без программирования дополнительных примитивов на языке C++; позволяет генерировать HTML и использовать в качестве визуализатора стандартный HTML- браузер.
Список опрашиваемых параметров Аппаратура модулей: температура, работоспособность обоих CPU, сбои оперативной памяти, работоспособность жестких дисков. Коммуникационная среда: исправность линков. Операционная система: общая работоспособность, загруженность CPU, cвободная память (RAM & swap), работоспособность и загруженность управляющей сети, количество процессов и пользователей, список процессов.
Хранение данных о состоянии устройств на LDAP- сервере За основу ПО, помещающего данные о состоянии устройств на LDAP-сервер, взят модуль DDB (динамическая база данных) системы FLAME В механизм кэширования данных, получаемых после опроса наблюдаемых устройств, добавлен механизм помещения и обновления этих же данных на LDAP-сервере В результате дерево хранения данных на LDAP- сервере совпадает со структурой хранения данных в кэш-файлах Схема работы модуля DDB представлена на следующем слайде
Схема работы модуля DDB DDB Cache LDAP server Получение информации Запрос информации Датчики Клиентскиеприложения Сохранение полученной информации в кэш- файлы Запись и обновление полученной информации на LDAP-сервере
Помещение данных на LDAP-сервер Данные на LDAP-сервер посылаются одновременно с кэшированием их в файлы Дерево хранения каждого значения формируется на основе имени кэш-файла и открытых тэгов в этом файле Части имени файла, разделенные запятыми, разделяются, и на их основе строится начало ветки, на которой хранится значение К частично построенной ветке последовательно присоединяются открывающиеся тэги, в которых храниться кэшированное значение В конец построенной ветки помещается само значение
Пример отображения данных, хранимых на LDAP- сервере В левой части отображено дерево хранимой информации на LDAP- сервере Справа – атрибуты выделенной записи, где атрибут ou – хранимое значение. Остальные атрибуты являются второстепенными
Заключение В заключение хотелось бы отметить, что мы пытаемся создать сложную систему управления, эффективность которой можно оценить только в ходе практического применения. Однако то, что мы будем иметь полное описание системы в динамической базе данных Flame и управлять системой совокупностью автономных агентов, позволяет надеяться на успех