UGENE – интегрированные инструменты биолога Константин Оконечников, НЦиТ Унипро 2010.

Презентация:



Advertisements
Похожие презентации
UGENE Tech Talk: от поиска повторов к облакам Константин Оконечников Unipro 2010.
Advertisements

Множественное выравнивание С.А.Спирин, весна
Решение задач биоинформатики при помощи веб - и интернет - сервисов.
Множественное выравнивание С.А.Спирин, весна 2011.
Интегрированная информационная система «КВАРТА». Компания КВАРТА Компания КВАРТА имеет 14-летний опыт работы в следующих областях: Реализация «под ключ»
Множественное выравнивание С.А.Спирин, весна 2009.
Расширение цифрового осциллографа системы управления за счет включения анализатора сигналов Цель: Создание методики построения подсистемы анализа сигналов.
Многометодные процедуры оптимального управления Архитектура и реализация программного комплекса Исследовательский Центр процессов управления Работа выполнена.
Обзор функциональных возможностей Vector NTI Подготовил: Кликич Евгений Николаевич, студент 4 курса.
1 Российский государственный университет нефти и газа имени И.М. Губкина Проект: «Поддержка и развитие Интернет-портала по проблемам изучения русского.
CAEBeans иерархические системы структурированных проблемно-ориентированных оболочек над инженерными пакетами Радченко Г.И., Соколинский Л.Б. ЮУрГУ, кафедра.
ПроектированиеРазработкаВнедрение г. Самара ул. Льва Толстого
UGENE Workflow Designer: вычислительные конвейеры в биоинформатике Грехов Герман Новосибирский центр информационных технологий УНИПРО НГУ, ФИТ.
Е-МАСТЕР ® Документооборот Программно-методический комплекс (Система управления организационной информацией) +7 (812)
Выполнила: Абдуллаева С.И. Проверила: Митющенко Е.В.
МОДЕЛИРОВАНИЕ РАБОЧИХ ПРОЦЕССОВ ВУЗА В BPM- СИСТЕМЕ.
Люди уже больше лет визуализируют свои мысли.
Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
Ростовский Государственный Университет Информационный Интегрирующий Комплекс ИИК.
1 Новые решения по автоматическому переводу: линейка PROMT Translation Server 10.
Транксрипт:

UGENE – интегрированные инструменты биолога Константин Оконечников, НЦиТ Унипро 2010

Вычислительная биология Примеры характерных задач: Поиск гомологов –Поиск и анализ схожести между генетическими последовательностями, различные виды выравниваний Определение генов –Идентификация генов и аннотация их функций Сборка контигов –Сборка цельных геномов из известных частей полученных в результате секвенирования Анализ структуры белка –Предсказание вторичной и третичной структуры, определение функций …и многое другое 2

Форматы и базы данных Genbank EMBL CLUSTAL MSF STOCKHOLM FASTA FASTQ NEWICK NEXUS ABI SCF EMBL MMDB PDB GFF SAM UniProt ACE NCBI Колоссальный объем информации! Например: Количество записей в NCBI Genbank на 2010 год – Количество публикаций в PubMed на 2010 год –

Многообразие подходов BLAST,FASTA,SSEARCH,CLUSTAL,MUSCLE,MAFFT,KALIGN,UCLUST,HMMER2, HMMER3,GARLIC,CONSED,CGVIEW,ERGO,EBBIE,MAUVE,MATTREE,COVE, PSIBLAST, GOR, PSIPRED, EXPASY, EMBOSS, PHYLIPP, SAM, CASP, BLOCKS, PRIMER3, CSBLAST, HHPRED,BIOCONDUCTOR,MUMMER, FEAST,BOWTIE,MAQ,SOAP,BIOPERL,POA, PRANK, FOLDALIGN,RMAP,SITECON,SHRIMP,BATWING,ASAP, BEAST,MEGA,MESQUITE,SEMPHY,TNT,BIOEDIT,BIOPYTHON,GALAXY, TAVERNA, GENEMARK, AMAP, MEME, PPSEARCH, ELPH, GENESCAN, ARTEMIS, CLANN, GENLUX, CRNPRED, BRAGI, DIP4FISH ANGIS,AFFYMETRIX,GENECHIP,ARLEQUIN,BIOPHP,BIORUBY,BIOEXTRACT, BIOSLAX,BISKIT,CYTOSCAPE,DAVID,DIALIGN-T, DIALIGN-TX,DNASTAR,ETBLAST FOLDX,FORMATDB,GENSCAN,GENTLE,GESS, GENMAPP,GENE,ACE, UGENE, ARGO, DESIGNER,GENEDATA,ENEPATTERN,GENEVESTIGATOR,JALIGNER,MEGAN,ARKA MODELLER,OLIGO,JPRED,STRIDE,TESS,GLIMMER,BIOECLIPSE, ENSEMBL,ASTERIAS,DPVIEW, PAUP,PSORT,PHYLOSCAN,PUPASUITE,PYMOL,RAPTOR,RASMOL, STING,SIMBIOSYS,SNAGGER,SOAPLAB,SPLITSTREE,ST EMLOC,T-COFFEE,PILER,USEARCH,DELTASTAT,DCSE,ASID,ARB,ANGLER, TREEFINDER,UCSF CHIMERA,UTOPIA,VECTOR NTI,YASS,MUSCA,JASPAR ……………………. 4

Минусы существующих подходов Зачастую средства и алгоритмы анализа генетических данных не согласуются между собой. Суть проблемы: необходима целостность в управлении данными, возможность построения составных методов анализа. Популярные инструменты не всегда пригодны для систематического анализа большого количества данных Суть проблемы: сложность обработки промежуточных результатов и другие ограничения. Многие задачи гораздо эффективнее решаются посредством использования высокопроизводительных ресурсов Суть проблемы: нужен специальный опыт в этой облас ти. 5

UGENE – предлагаемое решение Цель проекта – интеграция наиболее используемых алгоритмов анализа генетических данных в единой визуальной рабочей среде, удобной для прикладного специалиста. Свободная лицензия, русификация; Кросс-платформенность (MS Winodws, Mac, Linux); Модульная архитектура, более 30 расширений; Единый, удобный пользовательский интерфейс; Концептуальная целостность в работе данными; Эффективное использование вычислительных ресурсов; Поддержка составных методов анализа данных. 6

Краткий обзор возможностей UGENE Автоопределение форматов данных, поддержка более 20 форматов. Поиск паттернов и парное выравнивание (Smith Waterman) Сборка контигов (Bowtie, UGENE Genome Aligner) Множественное выравнивание: MUSCLE, Kalign, Clustal, Mafft Сверхбыстрый поиск повторов Визуализация и редактирование хроматограмм Анализ гомологии на основе цепей Маркова (HMMER) Построение филогенетических деревьев (Phylip) Поиск открытых рамок считывания для всех генетических таблиц Поддержка запросов к удаленным базам данных ( BLAST, CDD) Сайты рестрикции, cайты связывания транскрипционных факторов 7

Возможности UGENE Удобный редактор аннотаций Мощные возможности по визуализации и редактированию последовательностей ДНК РНК Аминокислотные 8

Возможности UGENE Редактор множественных выравниваний Просмотрщик филогенетических деревьев Визуализатор трехмерных макромолекулярных биологических структур с возможностью экспорта 9

Составные методы анализа Дизайнер вычислительных схем (Workflow Designer) – комплексный инструмент автоматизации вычислительных процессов, входящий в среду UGENE. Интуитивно понятный интерфейс пользователя; Расширяемость – легкое добавление новых вычислительных блоков; Каждый блок может иметь различные оптимизированные реализации для различных платформ; Автоматическая загрузка всех доступных вычислительных ресурсов; Интерактивность. 10

Пример вычислительной схемы 11

Эффективное использование вычислительных ресурсов Многоядерные процессоры Кластеры и грид-системы Платформо-зависимые оптимизации, GPGPU Облачные вычисления Удаленный сервис запуска задач основанный на мощностях Amazon EC2 Для пользователя запуск вычислительных задач и работа с платформой не усложняется! 12

Сравнение с аналогами СLCBio WorkbenchVectorNTIGeneiousUnipro UGENE Web-Сайт: Функциональность: Поиск гомологов++++ Сборка контигов+-++ Анализ структуры белка -+-- Клонирование in silico +++- Поддержка HPC++-+ Построение вычислительных схем ---+ Стоимость программного пакета: Лицензия на полгода, 1 пользователь ~1200$~1500$~700$*0 13 * может быть бесплатным при определенных условиях

Демонстрация 14

Текущее состояние проекта Более 1000 активных пользователей Проект входит в официальные версии дистрибутивов Linux: Ubuntu, Fedora, Arch Взаимодействие с российскими и рядом зарубежных институтов в области вычислительной молекулярной биологии Перенос задач на суперкомпьютеры 15

Перспективы Анализ данных секвенирования, визуализация Удобный язык для Дизайнера вычислительных схем Новая разработка Query Designer Объединенное рабочее пространство для группы исследователей Дальнейшее развитие удаленного сервиса UGENE 16

Вы и UGENE Использование UGENE в повседневной работе Обратная связь Специализированные feature-requestы Совместная работа над большими проектами Использование UGENE в образовательных проектах 17

Полезные ссылки Сайт: Почтовый алиас: Форум: Видео-канал: Твиттер: 18

Спасибо за внимание! Вопросы ? 19