Enabling Grids for E-sciencE A short introduction to the LCG/EGEE Projects Краткая информация о проектах LCG и EGEE Elena Tikhonenko, JINR, Dubna The training.

Презентация:



Advertisements
Похожие презентации
Enabling Grids for E-sciencE A short introduction to the LCG/EGEE Projects Краткая информация о проектах LCG и EGEE Olga Kodolova, SINP MSU Elena Tikhonenko,
Advertisements

EGEE is a project funded by the European Union under contract IST Getting started to LCG-2: obtaining of certificates E.Tikhonenko (JINR, NA4.
EGEE is a project funded by the European Union under contract IST Introduction to LCG-2 Введение в LCG-2 O.Kodolova (SINP MSU), E.Tikhonenko.
Архитектура LCG Ткачев Игорь ОИЯИ, Дубна, Россия 16 мая 2006 г.
Enabling Grids for E-sciencE GILDA Grid Demonstrator Олешко Сергей Петербургский институт ядерной физики РАН.
INFSO-RI Enabling Grids for E-sciencE ИТЭФ как партнер EGEE Оборудование, программы, каналы связи, перспективы. А.Селиванов, ИТЭФ,
В.И. Саврин, Совет информационых систем МГУ, 26 октября 2007 Суперкомпьютинг в физике высоких энергий, ядерной физике и космофизике всегда играл и играет.
EGEE is a project funded by the European Union under contract IST An introduction to Grid computing using the GENIUS portal and the GILDA testbed.
22 декабря 2006 г. 1Рабочее совещание ATLAS Проведение анализа данных ATLAS с применением программы GANGA Шиякова Мария Маринова НЭОВП - ATLAS.
Enabling Grids for E-sciencE Обучение пользователей в РДИГ Олешко С.Б. Петербургский институт ядерной физики РАН, Гатчина.
Кафедра математики, логики и интеллектуальных систем ИЛ РГГУ 1 Система управления базой понятий ЭЗОП Е. М. Бениаминов © Институт лингвистики.
Enabling Grids for E-sciencE Проект EGEE – новый этап развития GRID технологий в Европе С.Б. Олешко (ПИЯФ РАН)
GLite - EGEE middleware 22/12/2004, PNPI, Gatchina А. Кирьянов ОИТА ПИЯФ.
РЕАЛИЗАЦИЯ GRID-СЕРВИСОВ В ОКЕАНОГРАФИЧЕСКОЙ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКОЙ СИСТЕМЕ ДВО РАН Антушев С. Г., Голик А. В
Региональный сегмент научного GRID в Санкт-Петербурге Кирьянов А.К. ПИЯФ РАН.
Enabling Grids for E-sciencE Отчетный доклад SA1/ROC RDIG за первый период. Ю. А. Лазин ИФВЭ.
Учебный курс Объектно-ориентированный анализ и программирование Лекция 4 Трансформация логической модели в программный код Лекции читает кандидат технических.
Grid для новых пользователей GRID - некоторая аналогия с электрическими сетями (power grid), предоставляющими всеобщий доступ к электрической мощности.
1 Диаграммы реализации (implementation diagrams).
1 Демонстрационный пример использования некоторых возможностей Grid Open Source Forum, Russia, April 2005,
Транксрипт:

Enabling Grids for E-sciencE A short introduction to the LCG/EGEE Projects Краткая информация о проектах LCG и EGEE Elena Tikhonenko, JINR, Dubna The training coursesCMS user analysis using EGEE/LCG infrastructure Dubna, JINR, January 19, 2007

Enabling Grids for E-sciencE 2 Contents Содержание Специфика приложений ФВЭ Проект LCG Проект EGEE Как стать пользователем среды LCG/EGEE GRID User Interface Основные понятия и команды для запуска задач пользователя Инструментальные средства запуска задач пользователей CMS в среде LCG/EGEE Заключение и полезные ссылки

Enabling Grids for E-sciencE 3 CMS ATLAS LHCb ALICE При ожидаемой скорости записи сырых данных потребуются ресурсы для хранения данных порядка десятков и сотен ПБ. Для обработки данных потребуются сотни тысяч персональных компьютеров ( максимальной на текущий момент производительности) Эксперименты на LHC

Enabling Grids for E-sciencE 4 Обработка данных и вычисления в физике высоких энергий интерактивный физический анализ Пакетная обработка данных Пакетная обработка данных детектор суммарные данные по событиям «сырые» данные Реконструкция событий Реконструкция событий моделирование физических событий моделирование физических событий объекты для физического анализа (выделенные по физическим каналам) Отбор событий и первичная реконструкция Отбор событий и первичная реконструкция обработанные данные Триггер 1-го уровня

Enabling Grids for E-sciencE 5 Специфика приложений ФВЭ Требования по данным Колоссальные объемы данных (десятки и сотни Петабайт) Данные типа WORM (писать единожды, читать многократно) Структуризация данных с последующим извлечением информации из данных (data mining) Продолжительное время хранения данных, а также необходимость создания копий данных в разных странах мира Требования к обработке данных Обработка данных подразделяется на 2 типа – регулярное производство данных и «нерегулярный» анализ данных Производство (моделирование ) данных происходит систематически; при этом производятся наборы данных порядка ~ 10**9 физических событий. Анализ физических данных (на наборах данных порядка 10**7 событий) проводится произвольным образом и в индивидуальном порядке многими сотнями отдельных пользователей Высокий уровень параллелизма обработки на уровне событий, который может быть описан ориентированным графом с указанием последовательности обработки Поскольку интерактивная работа очень важна при анализе данных, необходимо предусмотреть возможность спасения сессий с сохранением информации об источнике данных («проверяемость», provenance) Необходимость глобального доступа к базам данных экспериментов для получения значений констант, условий работы и т.д.

Enabling Grids for E-sciencE 6 Требования к компьютингу для LHC Надежное и безопасное хранение данных (ежегодно будет производиться ~15 Петабайт данных) Скоростная сеть с малыми задержками и высокой пропускной способностью Управление разделением ресурсов между экспериментами, анализом и производством данных, различными группами анализа и индивидуальными пользователями, т.е. необходимость выработки общих правил (common policies) Поддержка и обучение пользователей Необходимо обеспечить прозрачный доступ к данным и вычислительным ресурсам для ~5000 ученых в ~500 институтах, расположенных по всему миру

Enabling Grids for E-sciencE 7 Проект LCG Проект LCG – the LHC Computing Grid Project ( ) – был организован для создания компьютерной инфраструктуры, необходимой для моделирования, обработки и анализа данных cтроящихся на LHC экспериментов. Проект был принят ЦЕРН в 2001 году и включает в себя 2 этапа: 1-й этап – (разработка общего прототипа мат.обеспечения и запуск пилотного вычислительного сервиса для LHC). 2-й этап – (оснащение и ввод в эксплуатацию вычислительного сервиса для LHC). В проект вовлечены эксперименты LHC, GRID-проекты в Европе и США, региональные и национальные компьютерные центры.

Enabling Grids for E-sciencE 8 Applications Area Библиотеки и инструментальные средства Управление данными Middleware Area Разработка, тестирование, интеграция и поддержка промежуточного программного обеспечения CERN Fabric Area Управление кластерами и данными Сети (глобальные и локальные) Вычислительный сервис в ЦЕРН Grid Deployment Area Установка и управление сервисами грид (сертификация, безопасность и т.д.). Service Challenges Направления работ в LCG Distributed Analysis Распределенный анализ данных

Enabling Grids for E-sciencE 9 LHC computing Grid Service LCG real time monitor (June, 2006) задач

Enabling Grids for E-sciencE 10 LHC computing Grid Service LCG real time monitor (January, 2007) задач

Enabling Grids for E-sciencE 11 LCG основывается на 2-х основных структурах грид в сфере науки LCG-инфраструктура реализована и успешно функционирует на базе 2-х инфрастуктур, обеспечиваемых проектами: EGEE - Enabling Grids for E-Science OSG - US Open Science Grid EGEE-II: (с апреля 2006 года) 90 институтов из 32стран > 20,000 CPU

Enabling Grids for E-sciencE 12 Что такое EGEE? EGEE – это крупнейшая инфраструктура грид в Европе: 90 ведущих научно-исследовательских институтов 32 странах, объединенные в региональные федерации грид расширяяет национальные и региональные работы по грид EGEE-I начат в апреле 2004 Активизирует международное научное сотрудничество Цель EGEE: создать глобальную инфраструктуру грид-сервисов, круглосуточно доступную для ученых и специалистов LCG и EGEE – различные проекты Но именно тесное сотрудничество обеспечивает разделение, а не дублирование работ

Enabling Grids for E-sciencE 13 РДИГ – Российский грид для интенсивных операций с данными

Enabling Grids for E-sciencE 14 Среда LCG-2/EGEE Cреда LCG-2 /EGEE– инфраструктура, промежуточное математическое обеспечение (middleware) которой может рассматриваться как логическое продолжение и развитие достижений таких grid – проектов, как Сondor, Globus, DataGrid, DataTag, GriPhyn, iVDGL и EGEE (Enabling Grids for E- sciencE). Под middleware понимается совокупность Grid-сервисов, независимых от ресурсов и приложений и обеспечивающих аутентификацию, авторизацию, размещение и распределение ресурсов, получение результатов выполнения задач, статистику и служебную информацию, удаленный доступ к данным, стратегию и способы обнаружения неисправностей.

Enabling Grids for E-sciencE 15 Последовательность действий для осуществления возможности работать в среде LCG-2/EGEE Во-первых, следует ознакомиться с Правилами использования ресурсов LCG/EGEE Затем получить персональный цифровой сертификат – для организаций на территории России – в Сертификационном центре в Курчатовском институте ( ). По завершению процесса регистрации Вы получите по электронной почте свой цифровой сертификат, который следует сохранить в файле usercert.pem Загрузить персональный сертификат в браузер См. Зарегистрироваться в соответствующей виртуальной организации по адресу: Для возможности работы в инфраструктуре LCG/EGEE надо получить сертификат и зарегистрироваться в соответствующей виртуальной организации; вся необходимая последовательность действий описана на странице: virtual organization (VO) – виртуальная организация - объединение пользователей, организаций и ресурсов (компьютеров, ПО и данных) в новый административный домен в рамках grid-инфраструктуры

Enabling Grids for E-sciencE 16 UI (User Interface) – cервис, обеспечивающий доступ к ресурсам Grid; c UI-компьютера пользователь может запускать или прерывать свои задачи, получать информацию о статусе выполняемых задач, находить ресурсы, необходимые для исполнения конкретной задачи, получать учетную информацию о своей задаче: а также копировать, реплицировать или уничтожать файлы в инфрастуктуре Grid. CE (Computing Element) – очередь в системе пакетной обработки инфраструктуры Grid WN (Working Node) – вычислительный узел фермы в инфраструктуре Grid SE (Storage Element) –cервис, обеспечивающий унифицированный доступ к ресурсам памяти инфраструктуры Grid (ресурсами памяти при этом могут быть как простые дисковые серверы, так и дисковые массивы или системы массовой памяти (MSS)). RB (Resource Broker) : сервис поиска наилучших ресурсов в среде GRID для запуска конкретной задачи Что такое UI, CE, WN, SE, RB?

Enabling Grids for E-sciencE 17 JDL – расширяемый язык, предназначенный для описания задач пользователя с помощью задания значений для атрибутов и появившияся еще при создании системы распределенных вычислений CONDOR Пользователь для запуска свой задачи в инфраструктуре grid должен сформировать файл ( job_definition.jdl ) Некоторые из атрибутов описываются пользователем, а некотрые атрибуты автоматически формируются UI до запуска задания в инфрастуктуру grid Атрибуты подразделяются на атрибуты описания задачи, атрибуты ресурсов и атрибуты описания данных. Job Description Language (JDL) Язык описания задачи

Enabling Grids for E-sciencE 18 Команды запуска задачи Выполняем команду voms-proxy-init –voms cms –вводим в процессе выполнения данной команды свой пароль на гридовский сертификат –получаем в результате proxy – временный сертификат, дающий право доступа к сервисам и ресурсам Grid в рамках VO VMS Выполняем команду: edg-job-submit myjob1.jdl и получаем в результате уникальный идентификатор задачи (Job Identifier), JobId По выполнению команды: edg-job-status JobId получаем статусную информацию о ходе выполнения задачи После завершения выполнения задачи можно выполнить команду edg-job-get-output JobId в результате чего получаем имя временнго каталога на машине UI, где находятся результаты выполнения задачи.

Enabling Grids for E-sciencE 19 Некоторые полезные команды UI edg-job-list-match Получение списка ресурсов, соответствующих описанию задачи (запуск задачи при этом не требуется) edg-job-cancel прекращение выполнения задачи edg-job-get-logging-info получение информации о прохождении задачи полезно при отладке программы Подробнее об атрибутах задачи и процессе запуска задач в среде LCG/EGEE см.

Enabling Grids for E-sciencE 20 В ОИЯИ UI-cервис доступен с lxpub03.jinr.ru, т.е. не требуется делать никаких специальных настроек по вхождению в сеанс для возможности работать с командами, обеспечивающими данный сервис. В CERN при вхождении на lxplus.cern.ch следует выполнить скрипт cms_ui_env.csh командой в результате чего установятся переменные окружения, необходимые для доступа к сервису UI. А при работе на lxplus.cern.ch с ASAP для доступа к сервису UI достаточно выполнить команду UI в ОИЯИ и в CERN source /afs/cern.ch/cms/LCG/LCG-2/UI/cms_ui_env.csh source /afs/cern.ch/sw/arda/install/CMS/asap3/setup.csh

Enabling Grids for E-sciencE 21 Инструментальные средства запуска задач пользоватлей Инструментальные средства, облегчающие пользователю запуск заданий в среде грид, должны «скрывать» от пользователя всю сложность работы в распределенной среде, обеспечивая ему простой и удобный интерфейс. На данный момент подобные решения существуют в CMS. Это системы CRAB и ASAP.

Enabling Grids for E-sciencE 22 Заключение и полезные ссылки Близок запуск LHC. Без умения работать в среде грид физикам уже не обойтись! полезная документация The LCG-2 User Guide LCG-2 User Scenario ClassAd language LCG-2 Frequently Asked Questions / CRAB Tutorial ASAP User Guide