30.07.2012Высокопроизводительные вычисления в биоинформатике 1.

Презентация:



Advertisements
Похожие презентации
Новые направления биомедицинских исследований Omics Докладчик: Татьяна Гребышева МБФ, гр Совместное заседание студенческого научного кружка кафедры.
Advertisements

г. Совместное заседание студенческого научного кружка кафедры биохимии и молекулярной биологии и кружка кафедры медицинской и биологической кибернетики.
Санкт-Петербургский государственный университет информационных технологий, механики и оптики Санкт-Петербург 2009 Санкт-Петербургский государственный университет.
Суперкомпьютер «УРАН» Андрей Созыкин Заведующий сектором суперкомпьютерных технологии ИММ УрО РАН Заведующий кафедрой высокопроизводительных.
Санкт-Петербургский государственный университет информационных технологий, механики и оптики Санкт-Петербург 2009 Санкт-Петербургский государственный университет.
ИНФОРМАЦИОННЫЕ И КОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ В БИОЛОГИИ Выполнил: Булавская Ксения.
ЗАО «Т-Ген» Создание информационно-программных систем для анализа молекулярно-биологической и генетической информации, полученной в результате крупномасштабного.
Трансгенные животные
Высокопроизводительные вычислительные системы: применения в биологии и практические аспекты решения некоторых задач.
ВАЖНАЯ БИОЛОГИЯ в ИКТ Выполнила : студентка 2 курса Синельникова Анастасия.
Биомедицинские исследования, биоинформатика, СУПЕРКОМПЬЮТЕРЫ М.А.Ройтберг Институт математических проблем биологии РАН, Пущино А.С.Карягина НИИ эпидемиологии.
Сравнение возможностей инструментария разработки программного обеспечения графических процессоров.
Принципы адаптации вычислительных алгоритмов под параллельную архитектуру графических акселераторов С.М.Вишняков научный руководитель: д.т.н. А.В.Бухановский.
Селекция микроорганизмов. Микроорганизмы Бактерии, микроскопические грибы, простейшие.
Принципы адаптации вычислительных алгоритмов под параллельную архитектуру графических акселераторов С.М.Вишняков научный руководитель: д.т.н. А.В.Бухановский.
1 Экология питания Москва, Россия. 26 октября, 2010 Юмей Лиин, д.н старший научный сотрудник института оптимального здоровья Нутрилайт (NUTRILITE) Калифорния,
Презентация на тему: «Как проверить лечебные свойства новых лекарств» Выполнили: ученицы 10«В» класса, лицея 17 ученицы 10«В» класса, лицея 17 Кустова.
ПАРАЛЛЕЛЬНАЯ ФИЛЬТРАЦИЯ ИЗОБРАЖЕНИЙ Фурсов В.А., Попов С.Б. Самарский научный центр РАН, Самарский государственный аэрокосмический университет, Институт.
Информационные технологии в решении задач высшей школы Задачи высшей школы Конкурентоспособность выпускников Создание интегрированной среды «образование.
1 Системный подход в моделировании МОДЕЛИРОВАНИЕ И ФОРМАЛИЗАЦИЯ.
Транксрипт:

Высокопроизводительные вычисления в биоинформатике 1

Высокопроизводительные вычисления в биоинформатике 2 Особенности предметной области 1.Большой темп накопления знаний. Появление новых высокопроизводительных экспериментальных установок. 2.Большой темп роста числа гетерогенных источников данных - баз данных. 3.Тенденция к усложнению моделей предметной области. 4.Расширение области применения молекулярно-генетических знаний: биомедицина, фармакология, нанобиоинженерия и т.д. 5.Необходимость решать задачи, требующие больших вычислительных ресурсов. 6.Необходимость решать задачи, требующие интеграции больших объемов гетерогенных источников данных.

Высокопроизводительные вычисления в биоинформатике 3 Системная биология Цель - изучение организации и механизмов развития и функционирования живых систем на основе информации, закодированной в их геномах, в ходе их взаимодействия с окружающей средой. Описание в базах данных и интеграция огромных объемов гетерогенной экспериментальной информации, характеризующей живые системы на различных уровнях их структурно-функциональной организации Крупномасштабный анализ экспериментальных данных Построение математических моделей организации и функционирования живых систем Предсказание новых особенностей организации и функционирования живых систем Планирование экспериментов по проверке результатов предсказания Проведение экспериментов и получение новых данных и знаний СИСТЕМНАЯ БИОЛОГИЯ ВОЗНИКЛА, КОГДА ОНА СТАЛА ПРЕДСКАЗАТЕЛЬНОЙ НАУКОЙ

Высокопроизводительные вычисления в биоинформатике 4 Системная биология – интегративная наука Э К С П Е Р И М Е Н Т А Л Ь Н Ы Е И С С Л Е Д О В А Н И Я Биология Медицина Физика МатематикаИнформатика Химия Биотехнология

Высокопроизводительные вычисления в биоинформатике 5 Экспериментально-вычислительная база системной биологии Кластер «Системная биология» Новосибирского научного центра СО РАН Геномика: автоматический секвенатор Протеомика: массовый анализ белков и метаболитов ТРАНСКРИПТОМИКА: производство биочипов высокой плотности и анализ профилей экспрессии генов Высокопроизводительные вычислительные Клеточная биология: лазерный сканирующий микроскоп LSM510 META Прижизненная томография экспериментальных животных

Высокопроизводительные вычисления в биоинформатике 6 Объемы молекулярно-биологических данных и комбинаторная сложность задач биоинформатики Источник данныхОбъем данныхЗадачи Секвенированные последовательности ДНК ~40 млн. последовательностей, пар оснований Функциональная аннотация Белковые последовательности ~ последовательностей (~300 аминокислот каждая) Сравнительный анализ. Выявление консервативных мотивов Структуры макромолекул структур (~3000 атомных координат каждая) Предсказание, выравнивание, измерение геометрии, докинг ГеномыОколо 1200 геномов прокариот, более 160 геномов эукариот Сборка полных геномов; Функциональная аннотация; Сравнительный анализ Экспрессия генов в различных тканях, стадиях развития, состояний организма и т.д. Сотни тысяч образцов c тысячами вариантов измерений для десятков тысяч генов. ~10 13 измерений. Анализ механизмов регуляции коэкспрессирующихся генов. Связь с последовательностями, структурными и биохимическими данными. SNP (однонуклеотидные мутации в ДНК) Только одна база данных dbSNP содержит информацию о 10 8 мутациях в 23 геномах. Анализ связи с заболеваниями Молекулярные взаимодействия, метаболические пути и генные сети Более 10 6 молекулярных взаимодействий описано в публикациях. Более ста тысяч метаболических путей и генных сетей представлено в базах данных. Моделирование молекулярно- генетических процессов и систем ПубликацииДесятки миллионов публикаций Поиск и извлечение знаний

Высокопроизводительные вычисления в биоинформатике 7 Список некоторых наиболее затратных задач биоинформатики и потребности в вычислительных и информационных ресурсах Ассемблирование полных геномов Реконструкция последовательности полного генома человека, животных или растений. 10 TFlops30 TB of trace files per genome Анализ полных геномовСравнительный анализ полных геномов 10 TFlops5 TB Предсказание структуры белка Анализ всех белков бактериального генома за одни сутки 100 TFlops10 TB Молекулярная динамикаМоделирование ДНК-белковых взаимодействий (20000 атомов, до 1 мс) 100 TFlops 30 TB of trace files Молекулярная динамика (с учетом квантовомеханических взаимодействий) Моделирование реакции для фермент активного сайта (200 атомов, 1 нс) за одни сутки TFlops 100s TB of trace files Докинг белковых молекулМоделирование взаимодействия белок-леганд. Предсказание функции белка. Поиск новых лекарственных средств. >10 TFlops5 TB

Высокопроизводительные вычисления в биоинформатике 8 Анализ потребности в Супервычислениях Клеточные процессы Клеточные сообщества Экологические процессы Метаболические пути Необходимые вычислительные ресурсы Уровни описания биосистем Предсказание структуры белка Сравнение геномов Моделирование динамики белковых комплексов Молекулярный докинг и моделирование взаимодействия Сравнительный анализ белков Моделирование генных сетей Tflops Моделирование клетки Моделирование эволюционных процессов Макромоделирование экосистем Моделирование метаболических путей Молекулярная машина Асемблирование генома Макромолекулы Широкомасштабное моделирование экосистем Моделирование динамики паразитарной инфекции на молекулярно-генетическом уровне Моделирование органа Макромоделирование микробных сообществ

Технологии ускорения решения задач 2. Использование специальных процессоров: FPGA (Field Programmable Gate Array) MPPA (Massively Parallel Processor Array) GPU (Graphics Processing Unit) 1. Использование высокопроизводительных вычислительных кластеров или суперкомпьютеров: Распараллеливание по данным Распараллеливание по процессам 3. Использование гибридных вычислительных систем, объединяющих в вычислительных узлах CPU вместе со спецпроцессорами, GPU или FPGA. Пример: IBM Roadrunner. Процессор PowerXCell 8i.

Высокопроизводительные вычисления в биоинформатике 10 GPU демонстрируют хорошие результаты при: 1.Параллельной обработке данных Когда одна и та же последовательность действий, применяется к большому объёму данных 2.Расчетах с высокой плотностью арифметики Когда велико отношение числа арифметических инструкций к числу обращений к памяти Когда эффективно GPU? Одни и те же вычисления означают меньшие требования к управлению исполнением (flow control) Высокая плотность арифметики и большой объём данных означают возможность покрытия латентности памяти вычислениями (вместо больших кэшей на CPU)

Генетический алгоритм оптимизации. Монте-Карло ( ) Анализ текстов, поиск регулярных выражений. (10-35). Сравнительная геномика. Филогения (15) Smith Waterman, BLAST, ClustalW (30-70) Скрытые марковские процессы. HMMer (25-30) Множественное выравнивание (30). распознавание образов(100), К-ближайших соседей (470), SVM(150), Нейросети (15); Алгоритмы на графах (20) Дискретное моделирование биологических систем (200) Молекулярная динамика ( ), Молекулярный докинг (16) Молекулярный фолдинг (100) Медицинская томография (300) Анализ изображений (100) Решение систем линейных уравнений (50) Сингулярная декомпозиция (60) Примеры приложений GPU CUDA и их эффективность

Благодарю за внимание!

Высокопроизводительные вычисления в биоинформатике 14 1.Компьютерный анализ результатов секвенирования и ассемблирование полноразмерных геномов. 2.Структурно-функциональная аннотация полногеномных последовательностей прокариот и эукариот. 3.Сравнительный анализ полногеномных последовательностей. 4.Молекулярная эволюция. Филогения. 5.Широкомасштабный компьютерный анализ протеомов. 6.Компьютерный анализ и моделирование структурно-функциональной организации ДНК, РНК, белков и их комплексов. 7.Функциональная аннотация белковых макромолекул. Молекулярный скрининг. Молекулярный докинг и молекулярный дизайн медицинских препаратов. 8.Дизайн самоорганизующихся ДНК/РНК наноструктур. 9.Молекулярная эпидемиология. Анализ полиморфизмов. 10.Компьютерное моделирование сложных молекулярно-генетических систем и процессов в норме и патологии. 11.Компьютерно-информационная поддержка экспериментального дизайна искусственных бактериальных молекулярно-генетических конструкций. 12.Компьютерный анализ изображений. Классы задач, решаемых в СО РАН

Высокопроизводительные вычисления в биоинформатике 15 CUDA Toolkit – среда разработки для GPU, основанная на языке C CUDA (Compute Unified Device Architecture) -- это технология от компании NVidia, предназначенная для разработки приложений для массивно- параллельных вычислительных устройств (в первую очередь для GPU начиная с GeForce 8800, а текже Quadro и Tesla. Основными плюсами CUDA являются ее бесплатность (SDK для всех основных платформ свободно скачивается с developer.nvidia.com), простота (программирование ведется на "расширенном С") и гибкость. GPU – сопроцессор для CPU (хоста) У GPU есть собственная память GPU с CUDA работает либо как гибкий потоковый процессор, где тысячи вычислительных программ, называемых потоками, или threads, вместе решают сложные задачи, либо как потоковый процессор в специфических приложениях, например, для вывода изображения, где потоки не связаны между собой. GPU способен одновременно обрабатывать множество потоков данных одним и тем же алгоритмом Для осуществления расчётов при помощи GPU хост должен осуществить запуск вычислительного ядра, которое определяет конфигурацию GPU в вычислениях и способ алгоритм получения. Процессы GPU (в отличие от CPU) очень просты и многочисленны (~ 1000 для полной загрузки GPU)