EGEE is a project funded by the European Union under contract IST-2003-508833 EGEE Applications E.Tikhonenko (JINR, NA4 Manager for Russia ), N.Zaikin.

Презентация:



Advertisements
Похожие презентации
Создание информационно-аналитической инфраструктуры комплексных медицинских исследований А.В.Ермаков, Д.А.Корягин Институт прикладной математики им.М.В.Келдыша.
Advertisements

EGEE is a project funded by the European Union under contract IST An introduction to Grid computing using the GENIUS portal and the GILDA testbed.
EGEE is a project funded by the European Union under contract IST Getting started to LCG-2: obtaining of certificates E.Tikhonenko (JINR, NA4.
EGEE is a project funded by the European Union under contract IST Introduction to the content and aims of EGEE course Yu.Ryabov (PNPI, Gatchina,
Enabling Grids for E-sciencE GILDA Grid Demonstrator Олешко Сергей Петербургский институт ядерной физики РАН.
Архитектура LCG Ткачев Игорь ОИЯИ, Дубна, Россия 16 мая 2006 г.
Enabling Grids for E-sciencE Проект EGEE – новый этап развития GRID технологий в Европе С.Б. Олешко (ПИЯФ РАН)
Положение об отделе В.Андреев, Д.Сатин. Штат отдела начальник отдела; бизнес-аналитик; проектировщик пользовательских интерфейсов; специалист по анализу.
INFSO-RI Enabling Grids for E-sciencE ИТЭФ как партнер EGEE Оборудование, программы, каналы связи, перспективы. А.Селиванов, ИТЭФ,
Что такое Moodle? Moodle (Modular Object-Oriented Dynamic Learning Environment) модульная объектно - ориентированная динамическая учебная среда свободно.
А.Минаенко 17 мая 2005 ИФВЭ, Протвино Модель компьютинга эксперимента АТЛАС.
Январь AМВОНЕТ – что это? Система Управления Обучением и Наполнением СУОН Система Управления Обучением и Наполнением СУОН.
В.И. Саврин, Совет информационых систем МГУ, 26 октября 2007 Суперкомпьютинг в физике высоких энергий, ядерной физике и космофизике всегда играл и играет.
Перспективные информационно-сетевые технологии в космических исследованиях Институт космических исследований РАН, Телекоммуникационные сети и системы Москва,
Enabling Grids for E-sciencE Обучение пользователей в РДИГ Олешко С.Б. Петербургский институт ядерной физики РАН, Гатчина.
ТЕХНОЛОГИЯ ЗАПУСКА ПАРАЛЛЕЛЬНЫХ ЗАДАЧ В РАЗЛИЧНЫХ РАСПРЕДЕЛЕННЫХ СРЕДАХ Институт проблем химической физики РАН, г. Черноголовка Пивушков Александр Викторович,
Российский ЦБГС. Отчет за 2004 год А.Крюков
Enabling Grids for E-sciencE A short introduction to the LCG/EGEE Projects Краткая информация о проектах LCG и EGEE Elena Tikhonenko, JINR, Dubna The training.
«1С:Документооборот 8». Зачем автоматизировать документооборот? Единая информационная база документов Возможность параллельного выполнения операций Непрерывность.
Распределенная обработка информации Разработано: Е.Г. Лаврушиной.
Транксрипт:

EGEE is a project funded by the European Union under contract IST EGEE Applications E.Tikhonenko (JINR, NA4 Manager for Russia ), N.Zaikin (JINR, NA3 Manager ) NA3 Induction Courses in the Dubna Conference June 28, 2004 A presentation has been prepared on basis of the presentation of F.Harris (Oxford/CERN)NA4 Applications

Talk Outline NA4 basic goals and the directions of activities Organizational structure Participants NA4 sub-tasks: biomed HEP generic приложения testing Industry Forum Milestones and deliverables RDIG-EGEE participation in NA4 Conclusions Glossary & Useful links

План лекции Основные цели и составляющие работы NA4 Организационная структура Участники Направления работ подгрупп NA4: биомедицинские приложения приложения физики высоких энергий базовые приложения тестирование промышленный форум Этапы работы и ожидаемые результаты Взаимодействие с другими рабочими группами проекта EGEE Участие RDIG-EGEE в NA4 Заключение

Группа NA4: Идентификация и поддержка приложений в среде проекта EGEE определение набора существующих пользовательских приложений из широкого спектра прикладных областей – научной, промышленной и коммерческой; создание для каждой новой отрасли хорошо подготовленных групп для поддержки и развертывания ( размещения) приложений, что, в свою очередь, создаст прочную основу для расширения сообщества EGEE; сосредоточение работы на начальном периоде действия проекта в хорошо сформулированных прикладных областях – физике частиц и науках о жизни ( в частности, биомедицине ). Эти два научных сообщества уже приобщены к грид-технология м и с самого начала проекта готовы к развертыванию реальных сложных приложений Цели работ по идентификации и поддержке приложений:

Группа NA4: Идентификация и поддержка приложений в среде проекта EGEE Результатом работы группы NA4 будут являться программные приложения – прикладные пакеты, развернутые в инфраструктуре EGEE и доступные для работы в grid-среде соответствующим сообществам пользователей Для развертывания этих приложений может понадобиться специальное ПО для обеспечения интерфейса к grid. Необходимо собрать существующую документацию из проекта EDG и других проектов (LCG, ARDA, GridLab, Healthgrid, …) для выработки общего решения Процесс развертывания приложений в инфрастуктуру EGEE будет происходить в рамках виртуальных организаций, объединяющих соответствующих пользователей Инфраструктура EGEE будет расширяться; с появлением новых пользователей им будет оказываться поддержка и будет организовываться обучение; также будут создаваться новые виртуальные организации Основные составляющие работы:

Организационная структура NA4 EGEE NA3 NA4 Биомедицинские приложения Приложения ФВЭ Базовые приложения Взаимодействие c NA3 Подгруппа тестирования Промышленный форум Совещания; отчеты Grid-интерфейсы Специфическое матобеспечение для приложений Web-сайт; получаемые результаты; публикации Тестовые наборы

NA4: руководство и взаимодействие NA4 AWG (V. Breton) LCGEGEE PEB HEP F. Harris M. Lamanna Biomed J. Montagnat C. Blanchet Generic R. Barbera ARDA Data challenges Biomed technical team Generic technical team Test team R. Météry Eric Fede

NA4: роли партнеров в проекте и финансирование Федерация Роль FTE Funded FTE Unfunded CERN Приложения ФВЭ (координация) 44 (9) UK+IrelandВзаимодействие с NA3 0,5 Italy Базовые приложения (координация) 22 France Общая координация; биомедицинские приложения; подгруппа тестирования; контакты с промышленными партнерами 77 Northern EuropeБазовые приложения 11 Germany + Switzerland Базовые приложения 11 Central EuropeБазовые приложения 11 South West Europe Биомедицинские приложения 22 Russia Приложения ФВЭ ; биомедицинские приложения; приложения ядерной физики ,224,218.8

специфика биомедицинских приложений Сложные требования по данным Гетерогенные форматы данных Частая обновляемость данных Сложные наборы данных (медицинские записи) Ограничения на безопасность и конфиденциальность Необходимость длительного хранения данных Cложные требования по обработке данных Биоинформатика (геномика, протеомика, …): распределенные базы данных Медицинские(просмотр снимков, эпидемиология...): распределенные базы графических данных Использование параллельных алгоритмов для обработки медицинских графических данных и для моделирования Интерактивные приложения Ограничения на безопасность и конфиденциальность

BLAST: биоинформатика в испытательной модели EDG Приложение BLAST - первый шаг в анализе новых последовательностей при сравнении ДНК- или белковых последовательностей с последовательностями, хранящимися в частных и публичных базах данных; может рассматриваться как идеальное grid-приложение: Требует ресурсы для хранения баз данных и запуска задачи Позволяет производить сравнение одной или нескольких последовательностей вместо параллельной работы с несколькими базами данныхl Большое сообщество пользователей

Гридификация приложения BLAST DB BLAST Seq1 > dcscdssdcsdcdsc bscdsbcbjbfvbfvbvfbvbvbhvbhs vbhdvbhfdbvfd Seq2 > bvdfvfdvhbdfvb bhvdsvbhvbhdvrefghefgdscgdfg csdycgdkcsqkc … Seqn > bvdfvfdvhbdfvb bhvdsvbhvbhdvrefghefgdscgdfg csdycgdkcsqkchdsqhfduhdhdhq edezhhezldhezhfehflezfzejfv DB BLAST dedzedzd zedezdze cdscsdcsc dssdcsdc dscbscds bcbjbf DB BLAST dedzedzd zedezdze cdscsdcsc dssdcsdc dscbscds bcbjbf DB BLAST dedzedz dzedezd zecdscsd cscdssdc sdcdscbs cdsbcbjb f RESULT dedzedzdzedezdzecdscsdcscdssdcsd cdscbscdsbcbjbfvbfvbvfbvbvbhvbh svbhdvbhfdbvfdbvdfvfdvhbdfvbhd bhvdsvbhvbhdvrefghefgdscgdfgcsd ycgdkcsqkcqhdsqhfduhdhdhqedezh dhezldhezhfehflezfzeflehfhezfhehf ezhflezhflhfhfelhfehflzlhfzdjazslzd hfhfdfezhfehfizhflqfhduhsdslchlkc hudcscscdscdscdscsddzdzeqvnvqvn q! Vqlvkndlkvnldwdfbwdfbdbd wdfbfbndblnblkdnblkdbdfbwfdbfn dedzedzd zedezdze cdscsdcsc dssdcsdc dscbscds bcbjbf UI Computing element Input file Computing element dedzedzd zedezdze cdscsdcsc dssdcsdc dscbscds bcbjbf Seq1 > dedzedzdzedezdze cdscsdcscdssdcsdc dscbscdsbcbjbdfn dfjvbndfbnbnfbjn bjxbnxbjk:nxbf dedzedzd zedezdze cdscsdcsc dssdcsdc dscbscds bcbjbf Seq2 > dedzedzdzedezdze cdscsdcscdssdcsdc dscbscdsbcbjbdfn dfjvbndfbnbnfbjn bjxbnxbjk:nxbf dedzedzd zedezdze cdscsdcsc dssdcsdc dscbscds bcbjbf Seqn > dedzedzdzedezdze cdscsdcscdssdcsdc dscbscdsbcbjbdfn dfjvbndfbnbnfbjn bjxbnxbjk:nxbf

Моделирование Монте-Карло в рентгенотерапии StorageElement ComputingElement StorageElement ComputingElement StorageElement ComputingElement StorageElement ComputingElement GATE Image: text file Binary file: Image.raw Size 19M Scanner slices: DICOM format Database User interface CCIN2P3 RAL NIKHEF MARSEILLE Anonymisation Concatenation Submission of jdls to the CEs Copy the medical image from the SE to the CE Retrieving of root output files from CEs

CMS ATLAS LHCb ALICE При ожидаемой скорости записи сырых данных потребуются ресурсы для хранения данных порядка десятков и сотен ПБ. Для обработки данных потребуются сотни тысяч персональных компьютеров ( максимальной на текущий момент производительности) Эксперименты на LHC

Обработка данных и вычисления в физике высоких энергий интерактивный физический анализ Пакетная обработка данных Пакетная обработка данных детектор суммарные данные по событиям «сырые» данные Реконструкция событий Реконструкция событий моделирование физических событий моделирование физических событий объекты для физического анализа (выделенные по физическим каналам) Отбор событий и первичная реконструкция Отбор событий и первичная реконструкция обработанные данные Триггер 1-го уровня

Иерархия данных RAW, ESD, AOD, TAG RAW ~2 MB/event ESD(/DST) Первичная стадия реконструкции на уровне создания базовых кластеров и трек-сегментов Геометрическая реконструкция событий: траектории частиц, импульсы и энергии ~100 kB/event AOD ~10 kB/event TAG ~1 kB/event События, удовлетворяющие условиям триггера; записываются системами сбора данных (DAQ) Реконструированная информация Информация для анализа Указатель события (классификационная информация для быстрого выбора нужного события) Event Summary Data Analysis Object Data Съем цифровых отсчетов с детекторов На 2 порядка уменьшается объем данных по сравнению с исходным потоком Физическая реконструкция: установление соответствия частиц и треков, уточнение характеристик струй, поиск распадных вершин L1 L2+L3

Специфика приложений ФВЭ Требования по данным Колоссальные объемы данных (десятки и сотни Петабайт) Данные типа WORM (писать единожды, читать многократно) Структуризация данных с последующим извлечением информации из данных (data mining) Продолжительное время хранения данных, а также необходимость создания копий данных в разных странах мира Требования к обработке данных Обработка данных подразделяется на 2 типа – регулярное производство данных и «нерегулярный» анализ данных Производство (моделирование ) данных происходит систематически; при этом производятся наборы данных порядка ~ 10**9 физических событий. Анализ физических данных (на наборах данных порядка 10**7 событий) проводится произвольным образом и в индивидуальном порядке многими сотнями отдельных пользователей Высокий уровень параллелизма обработки на уровне событий, который может быть описан ориентированным графом с указанием последовательности обработки Поскольку интерактивная работа очень важна при анализе данных, необходимо предусмотреть возможность спасения сессий с сохранением информации об источнике данных («проверяемость», provenance) Необходимость глобального доступа к базам данных экспериментов для получения значений констант, условий работы и т.д.

Характеристики CMS Data Challenge DC04 Pre-Challenge Production Использование набора инструментальных средств OCTOPUS, объединяющего средства производства данных CMS (CMS production tools) с grid-средствами. В результате 8-ми месяцев непрерывного производства данных: просчитано заданий при затратах производительности порядка 3500 KSI месяцев получено файлов объем полученных данных - 80 TB Производство данных с использованием пакета OSCAR (на основе Geant 4) За 6 месяцев произведено 16 миллионов событий Data Challenge Поставленная задача: воспроизвести полную последовательность действий по реконструкции и распределению (размещению) данных на частоте 25 Гц В результате удалось выполнить эту задачу в течение ограниченного периода времени; при этом: В Tier-0 на 500 ЦПУ выполнялось 2200 заданий в день и производились данные со скоростью 4 MB/с; затем данные передавались в соотв.Tier-1 регистрация данных (с POOL- метаданными) в RLS (Replica Location Service) происходила со скоростью 0.4 файла в секунду 25 Hz 15 Mevts/week N DST as function of time N OSCAR as function of time

ALICE Распр.анализ промежуточное программное обеспечение EGEE Сообщество ресурс- провайдеров ATLAS Распр.анализ CMS Распр.анализ LHCb Распределенный анализ SEAL PROOF GAE POOL ARDA Сотрудничество Координация Интеграция Детализация Приоритеты Планирование Опыт Определение требований (Use Cases) EGEE NA4 Идентификация и поддержка приложений LCG-GAG Группа Grid-приложений ARDA : A Realisation of Distributed Analysis for LHC Persistency Framework Core Libraries and Services Grid-enabled Analysis Environment Parallel ROOT Facilities

NA4 «базовые» приложения Основная задача - привлечение новых научных и промышленных сообществ, заинтересованных в использовании инфраструктуры, которая будет создана в ходе проекта EGEE. Хорошо организованный портал GENIUS может служить прекрасным инструментом для внедрения в среду промежуточного ПО EGEE новых приложений – в значительной степени потому, что на порталe создан очень простой и доступный пользовательский интерфейс, что особенно важно при привлечении новых пользователей, не имеющих опыта работы в grid-среде. GILDA – это полный набор элементов grid (испытательная модель, сертификация, виртуальная организация, система мониторинга, веб-портал) и приложений, который целиком посвящен задаче распространения знаний о grid-технологиях. Поэтому он успешно используется на обучающих курсах в рамках проекта EGEE. Его можно также считать идеальной испытательной моделью для портирования новых базовых приложений.

Портал GILDA (

Вопросник по базовыми приложениям Чтобы получить информацию и узнать о первых требованиях от новых сообществ, заинтересованных в использовании инфраструктуры EGEE, был разработан вопросник, который доступен по адресу ( questionnaire.doc) С уже поступившими сведениями можно ознакомиться по адресу ( Астрофизика (изучение эволюции галактики с помощью искусственного спутника Планк) Система наблюдения Земли (озоновые карты, сейсмология, климат) Электронные библиотеки (проект DILIGENT) Grid – поисковые серверы (поисковый сервер проекта GRACE (Gravity Recovery and Climate Experiment)) Промышленные приложения (проект SIMDAT – grid-приложения в автомобильной, фармацевтической, авиа-космической промышленности и метеорологии) Также был проявлен интерес из нескольких других сфер: вычислительной химии (Италия и Чехия), гражданского проектирования (Испания), и геофизики (Швейцария и Франция)

Задачи Промышленного форума в проекте EGEE Основная роль Промышленного форума – вовлечение в проект партнеров из различных сфер промышленности. Членами Промышленного форума EGEE могут быть компании любого уровня, основной или частичный бизнес которых развернут в Европе. Промышленным форумом будет руководить исполнительный комитет, состоящий из участников проекта EGEE и представителей промышленности.

NA4 группа тестирования Будут разработаны 3 типа тестов, основанных на требованиях пользователей и опыте работы LHC DCs и ARDA : Тесты по работоспособности сервисов: набор тестов по проверке работоспособности EGEE-сервисов. При этом должны проверяться все виды grid-сервисов: запуск и управление заданием, управление файлами, информационный сервис, …. Тесты по оценке функциональности: для проверки, все ли необходимые функциональные возможности доступны: например, создание, перенос или удаление файлов, восстановление при ошибках и т.п. Тесты для оценки рабочих характеристик: для возможности оценить испытательную модель с точки зрения конечный пользователь-приложение. Часть таких тестов будет посвящена временным оценкам ( время запуска задачи, время репликации какого-то количества файлов, …), другие – оценкам масштабируемости ( например, какое количество заданий может быть принято таким-то сервисом,...), некоторые – менее конкретным оценкам (возможность использования информации, доступ к сообщениям об ошибкам,…). Эти работы будут проводиться в тесном взаимодействии с ARDA, JRA1 и SA1

Этапы работы и ожидаемые результаты В течение первых 6-ти месяцев должна быть завершена миграция первых приложений в структуру EGEE: HEP DCs для 4 экспериментов LHC и эксперимента D0 биомедицина – моделирование с помощью приложения GATE в ядерной медицине + иные приложения плюс первые базовые приложения В течение первых нескольких месяцев работы проекта будет выработано определение общего интерфейса для приложений (что особенно важно для новых приложений; здесь будет очень существенным использование портала GENIUS) В течение первого полугодия будет создан документ по целевой стратегии (который необходим в контексте использования новых приложений в инфраструктуре EGEE) K концу 3-го квартала работы проекта будет подготовлен отчет о процессе миграции приложений По всем приложениям будут даны оценки по действующим и опытным сервисам LCG (текущему и «новому» промежуточному ПО)

Взаимодействие NA4 с другими группами EGEE и иными партнерами (1) SA1 - функционирование grid Как ввести новые виртуальные организации в LCG из других доменов? Как организовать процесс интеграции в LCG новых ресурсов (сайтов) из новых прикладных областей? Рациональность тестовых процедур Сотрудничество с национальными проектами (например, использование мониторинга приложений, разработанного в Великобритании в проекте GridPP) NA3 - обучение Оценка требований к курсам Подготовка и проведение курсов JRA1 - промежуточное программное обеспечение Обобщение всех исходных требований приложений и мониторинг (с обратной связью к промежуточному ПО) степени удовлетворения этих требований (этот процесс тщательно прорабатывается в подгруппе PTF-Project Technical Forum в рамках группы JRA1 ) JRA2 - обеспечение качества NA4 имеет своего представителя в этой группе для определения процесса мониторирования качества сервисов EGEE

Взаимодействие NA4 с другими группами EGEE и иными партнерами (2) JRA3 - безопасность Безопасность данных для медицинских (и других) приложений Безопасность сайтов SA2,JRA4 – организация сети Обеспечение глобальных требований приложений ФВЭ в LCG Биомедицинские и другие приложения могут иметь иные глобальные требования NA4 будет предоставлять информацию по определению требований для отдельных приложений, особенно в проблемных ситуациях LCG NA4/HEP представлены в группе grid-приложений (GAG) проекта LCG Это требования от экспериментов ФВЭ и формирование обратной связи в промежуточное программное обеспечение. Некоторые члены группы GAG входят в состав PTF (Project Technical Forum) группы JRA2.

Участие RDIG-EGEE в NA4 Приложения ФВЭ: Институт теоретической и экспериментальной физики (Москва) (отв.по LHCb) Институт физики высоких энергий (Протвино) (отв.по ATLAS) Курчатовский институт (Москва) Научно-исследовательский институт ядерной физики (Москва) (отв. по CMS) С.-Петербургский институт ядерной физики (Гатчина) Объединенный институт ядерных исследований (Дубна) (отв. по ALICE и CMS) Биологические приложения Институт математических проблем биологии (Пущино) Приложения ядерной физики (FusionGrid) Курчатовский институт (Москва) Основная задача (NA4.4.2) – миграция приложений в инфраструктуру EGEE

Заключение Деятельность группы NA4 на данном этапе базируется на следующих моментах: Эксперименты ФВЭ предполагают использовать окружение LCG-2 для своих Data Challenges ARDA успешно разворачивает свою работу и ждет появления первого прототипа нового промежуточного математического обеспечения Биомедицинские приложения готовы для развертывания в среде LCG-2 и опытных сервисов Подгруппа «базовых» приложений очень активно взаимодействует с GILDA и NA3 Подгруппа тестирования ведет свою работу совместно с JRA1 и ARDA Промышленный форум налаживает контакты с различными компаниями (см. доклады на конференции EGEE в Корке) июля в Катанье намечено проведение открытого совещания NA4, на котором планируется обсудить проблемы промежуточного п/о, функционирования, безопасности и сетевые вопросы. NA4 Web-сайт

Некоторые термины Data Challenge – крупномасштабные сеансы массового моделирования и обработки физических событий в распределенной среде с использованием grid-технологий; проводятся в ряде экспериментов ФВЭ с целью подготовки и оптимизации рабочей стадии экспериментов deployment – развертывание; внедрение, размещение (например, системы, ПО на системе или платформе) disseminate - распространять знания errors recovery – восстановление при ошибках gridification - «гридификация» - развертывание (приложения) в grid-среде GRID-services: Job submission and management - запуск и управление заданием; files management - управление файлами; Information service – информационный сервис testbed - испытательная модель virtual organization (VO) – объединение пользователей, организаций и ресурсов в новый административный домен в рамках grid- инфраструктуры... should be continued...

Полезные ссылки – LCG Project - Applications Area (POOL, GEANT4, SEAL, …) – The Grid for UK Particle Physics... should be continued...