QC-pipeline Руководитель: А. Коробейников Студент: К. Федоров
Задача Удаление артефактов из ридов: 1)Adapters (Illumina, etc) 2)Cloning Vectors (pUC19, etc) 3)Contaminations (H.Sapiens, etc)
Существующие решения Поиск векторов: cross_match Поиск адаптеров: cutadapt, fastX clipper Основные подходы: Выравнивание с помощью blast Некоторые утилиты ищут только точные совпадения
Цель Хотим научиться искать искать адаптеры и вектора за приемлемое время Желательно комбинировать различные подходы: точный поиск, выравнивание и т.д. для ускорения работы В качестве источников данных о контаминациях используется база UniVec
Точный поискВыравнивание Поиск контаминаций Фильтрация
Параллелизация
Проблемы (1) ? Выравнивание 250 адаптеров/векторов к 66 млн ридов – около 15 часов ! SIMD реализация SW ускоряет выравнивание ~ 30 раз
Проблемы (2) ? Хочется исключить из рассмотрения адаптеры, которые точно не подходят ! Поиск общих к-меров в базе и в ридах
Итого Выравнивание + точный поиск контаминаций в датасете из 66 млн ридов проводится за 4 минуты Проект стал частью SPAdes pipeline
Спасибо за внимание