Обработка данных секвенирования следующего поколения в один клик Афанасьев Андрей, Генеральный директор iBinom.

Презентация:



Advertisements
Похожие презентации
СкайДокАрхив Система ведения электронного архива.
Advertisements

Программный комплекс «Расчет параметров первичного оборудования» ЗАО «Техсистем. Инновационная лаборатория»
Электронный документооборот 1С:Архив Выполнила Ильясова Е.П ПИ-51.
Алгоритм работы с АИАС «Директор». 1 этап Установка программы Создание новой базы данных ОУ Заполнение сведений об образовательном учреждении Установка.
Анализ данных и интеграция информационных систем Станислав Чистяков Старший Консультант 5 апреля 2011 года, гостиница «Золотое кольцо»
1С-Битрикс: Интранет-портал органа власти Сазонов Андрей менеджер проектов.
Поиск неестественных текстов Е.А.Гречников, Г.Г.Гусев, А.А.Кустарев, А.М. Райгородский Яндекс, Лаборатория комбинаторных и вероятностных методов RCDL2009.
© 2007 Cisco Systems, Inc. All rights reserved.SMBE v Cisco SMB University for Engineers Настройка маршрутизаторов Cisco с интегрированными услугами.
Электронный мониторинг Национальной образовательной инициативы «Наша новая школа» Петряева Е.Ю., руководитель службы мониторинга.
I. Информация и информационные процессы 1. Определение информации. Свойства информации. 2. Представление и кодирование информации с помощью знаковых систем.
- облачный сервис для автоматической интерпретации результатов генетических анализов и формирования заключения - облачный сервис для автоматической интерпретации.
Российская академия наук Институт проблем информатики (ИПИ РАН) Приоритетные направления исследований в информационных технологиях академик РАН Игорь Анатольевич.
Для вычислений в таблице с помощью встроенных функций Excel 2007 рекомендуется использовать мастер функций. Диалоговое окно мастера функций доступно при.
Дмитрий Лившиц Зам. директора Департамента Программных Решений, Digital Design Digital Design Современное управление школой.
Работа учащегося 7Б класса Толгского Андрея. Каждое натуральное число, больше единицы, делится, по крайней мере, на два числа: на 1 и на само себя. Если.
КОНКУРС СРЕДИ РЕГИОНАЛЬНЫХ ШТАБОВ СТУДЕНЧЕСКИХ ОТРЯДОВ МОЛОДЕЖНОЙ ОБЩЕРОССИЙСКОЙ ОБЩЕСТВЕННОЙ ОРГАНИЗАЦИИ «РОССИЙСКИЕ СТУДЕНЧЕСКИЕ ОТРЯДЫ» РЕАЛИЗАЦИЯ С.
Практический опыт построения системы централизованного мониторинга ИБ в банковской организации на базе решений Oracle Информационная безопасность для компаний.
СИСТЕМА УПРАВЛЕНИЯ БАЗАМИ ДАННЫХ МОДЕЛИРОВАНИЕ И ФОРМАЛИЗАЦИЯ.
{ Внедрение и использование медицинских баз данных в медицинских учреждениях. Выполнила:Толометова А(1-073 ОМ)
Базы данных Урок информатики и ИКТ, 11 класс Автор: Буравцова Ксения Валерьевна, учитель информатики и ИКТ МАОУ лицея 82 г. Челябинска.
Транксрипт:

Обработка данных секвенирования следующего поколения в один клик Афанасьев Андрей, Генеральный директор iBinom

Проблемы текущих решений Сложная установка Сложная настройка Медленная работа Плохая воспроизводимость результатов Плохая визуализация результатов

Задача Сделать продукт по анализу данных NGS для диагностики наследственных заболеваний для врачей: – Простой интерфейс – Минимум настроек – Высокая скорость работы и воспроизводимость результатов – Высокая точность

Технические сложности Алгоритмическая сложность и ресурсоемкость (до 1000 CPU*h на анализ) Большой объем входных данных (1-500 Гб) Разные форматы данных FastQ (длины ридов, качество в phred33/phred64) Обеспечение безопасности передачи и хранения данных

Подход Фильтрация ридов по качеству Картирование Фильтрация по таргетным регионам Поиск SNP и коротких indel Аннотация Сортировка по патогенности и формирование отчета

Реализация Распределенные вычисление в облаке Amazon в рамках парадигмы MapReduce (неограниченная масштабируемость) Хранение данных в S3 Картирование BWA-MEM Референс hg19 GRCh37.p13 assembly, ver Коллинг SamTools Аннотация SnpEff Собственная оценка патогенности – ibinom score

Выравнивание (симулированные данные) Total Correct Reads (%)Incorrectly Mapped Reads (%) Unmapped Reads (%) iBinom %1.27%0.00% Bowtie %3.15%0.53% Bwa %1.02%6.51%

Коллинг

iBinom Score Машинное обучение с помощью алгоритма градиентного бустинга Обучающая выборка: – Патогенные: записи из dbsnp c clinvar clinical significance = pathogenic – Непатогенные: записи из dbsnp c частотой самого редкого аллеля >5% во всех популяциях

iBinom Score Точность: 93.44% Полнота: 90.96% F-measure: 92.18% Обучение по базам и скорам: 1000genomes, ClinVar, dbSNP, dbNSFP, Ensembl Project, EntrezGene, Exome Variant Server, GeneReviews, GERP++, GO, MutationAssessor, MutationTaster, Orpha Date, Reactome, RefSeq, SeattleSeq, SiPhy, snpEff, UniProt и др.

Использование iBinom 1. Поддерживается любой FASTQ файл, включая архивы.gz, кроме colorspace 2. Встроенный тримминг адаптеров 3. Можно объединять несколько файлов в один образец 4. Можно скачать vcf-файл (в формате v.4.1) 5. Для передачи используется шифрованное соединение https

Планы 1. Система подбора болезней (по симптомам, по списку генов, по списку болезней) 2. Ветвление пайплайна (например, выравнивание TMAP для IonTorrent) 3. Переделка и упрощение интерфейса программы

Приглашаем к сотрудничеству!