QC-pipeline Руководитель: А. Коробейников Студент: К. Федоров.

Презентация:



Advertisements
Похожие презентации
Создание и использование запросов Тема урока. Основными инструментами обработки данных являются сортировка, фильтр и запрос. Сортировка это упорядочение.
Advertisements

Векторы Подборка задач 9 класс 1 материал подготовлен для сайта matematika.ucoz.com.
Необычное в обычном. Если вы хотите научиться плавать, то входите в воду, а если хотите научиться решать задачи, то решайте их. Д.Пойа.
СПАСИБО ЗА ВНИМАНИЕ!
Спасибо за внимание!
Спасибо за урок
Спасибо за внимание!!!
Спасибо за внимание!
СПАСИБО ЗА ВНИМАНИЕ!!!
СПАСИБО ЗА ВНИМАНИЕ!
Спасибо за внимание!
Спасибо за внимание!!!
Спасибо за внимание!
СПАСИБО ЗА ВНИМАНИЕ!
Спасибо за внимание!
Спасибо за внимание!
Спасибо, за внимание!
Спасибо
Права ребёнка. СПАСИБО ЗА ВНИМАНИЕ!
Транксрипт:

QC-pipeline Руководитель: А. Коробейников Студент: К. Федоров

Задача Удаление артефактов из ридов: 1)Adapters (Illumina, etc) 2)Cloning Vectors (pUC19, etc) 3)Contaminations (H.Sapiens, etc)

Существующие решения Поиск векторов: cross_match Поиск адаптеров: cutadapt, fastX clipper Основные подходы: Выравнивание с помощью blast Некоторые утилиты ищут только точные совпадения

Цель Хотим научиться искать искать адаптеры и вектора за приемлемое время Желательно комбинировать различные подходы: точный поиск, выравнивание и т.д. для ускорения работы В качестве источников данных о контаминациях используется база UniVec

Точный поискВыравнивание Поиск контаминаций Фильтрация

Параллелизация

Проблемы (1) ? Выравнивание 250 адаптеров/векторов к 66 млн ридов – около 15 часов ! SIMD реализация SW ускоряет выравнивание ~ 30 раз

Проблемы (2) ? Хочется исключить из рассмотрения адаптеры, которые точно не подходят ! Поиск общих к-меров в базе и в ридах

Итого Выравнивание + точный поиск контаминаций в датасете из 66 млн ридов проводится за 4 минуты Проект стал частью SPAdes pipeline

Спасибо за внимание