Выравнивание последовательностей. Простое взвешивания +1 : вес совпадения -μ : штраф за несовпадение -σ : штраф за делецию/вставку Вес выравнивания =

Презентация:



Advertisements
Похожие презентации
ДУПЛЕТНЫЙ КОД. 4 азотистых основания : G C A T(U) 4 2 = =15.
Advertisements

Парное выравнивание FVAH F I AG V DE G A TANL NI.
Алгоритмы выравнивания Артем Артемов, Светлана Виноградова 2012.
TALE-БЕЛКИ И PRD/PAX-БЕЛКИ -ПРЕДСТАВИТЕЛИ СЕМЕЙСТВА ГОМЕОБЕЛКОВ: АНАЛИЗ И ХАРАКТЕРИСТИКА ВЫРАВНИВАНИЯ И ПРОСТРАНСТВЕННОЙ СТРУКТУРЫ Работу выполнили: А.
Алгоритм Флойда-Уоршалла Находит кратчайшие расстояния между всеми парами вершин графа Идея: Строится специальная матрица D, элементы которой – кратчайшие.
Выравнивания (продолжение) С.А.Спирин, Пути эволюции последовательностей В основе случайное изменение нуклеотидной последовательности ДНК: – точечные.
Мутации и отбор Сегодня основное внимание уделим отбору.
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков сходная 3D-структура.
Выравнивание … … последовательностей белков и его биологический смысл.
Парные выравнивания биологических последовательностей А.Б.Рахманинова, С.А.Спирин 2008 (продолжение)
Эволюция семейства белков Эволюционные домены и их выравнивание.
Основы строения белка Август, 2006 Токийский Научный Университет Тадаси Андо.
Cравнение биологических последовательностей А.Б.Рахманинова, 2008.
Последовательности белков Эволюционные домены и их выравнивание С.А.Спирин,
Множественное выравнивание. Обобщение парного выравнивания Выравнивание 2-х последовательностей – двумерная матрица 3-х последовательностей – 3-х мерная.
Задания части А Задания части С. 1. Значения двух массивов A[1..100] и B[1..100] задаются с помощью следующего фрагмента программы. Сколько элементов.
Номер варианта выбирается по параметру зачетки d 10 соотв Задача Коммивояжёра Имеется n городов, занумерованных числами.
Выравнивание биологических последовательностей А.Б.Рахманинова, С.А.Спирин 2005–2008.
1 Лекция 6 Графы. 2 Граф – это множество вершин и соединяющих их ребер. Примеры графов:
BLAST: Basic Local Alignment Search Tool. BLAST – алгоритм для нахождения участков локального сходства между последовательностями. Алгоритм сравнивает.
Транксрипт:

Выравнивание последовательностей

Простое взвешивания +1 : вес совпадения -μ : штраф за несовпадение -σ : штраф за делецию/вставку Вес выравнивания = #совпадения – μ(#несовпадений) – σ (#делеций/вставок)

Алгоритм = -б = 1 если совпадение = -µ если несовпадение s i-1,j-1 +1 if v i = w j s i,j = max s i-1,j-1 -µ if v i w j s i-1,j - σ s i,j-1 - σ

Identity A C C T G A G – A G A C G T G – G C A G Identity = 70% mismatch indel

Измерение схожести – Идентичность – Консервативность

Матрицы весов Для ДНК составим (4+1) x(4+1) матрицу весов δ. Для белков размер матрицы (20+1)x(20+1). Дополнительные строка и столбец нужны для включения gap символа. Это упростит алгоритм следующим образом: s i-1,j-1 + δ (v i, w j ) s i,j = max s i-1,j + δ (v i, -) s i,j-1 + δ (-, w j )

Создание матриц весов Матрицы создаются на основе экспериментальных данных. Выравнивания – представления белков, различающихся мутациями. Некоторые из этих мутаций менее пагубно влияют на функцию белка, и, соответственно, штраф δ(v i, w j ), будет меньше прочих.

Пример матрицы весов ARNK A5-2 R-7 3 N--70 K---6 Несмотря на то, что R и K разные аминокислоты, их пара имеет положительный вес. Почему? Обе являются положительно заряженными полярными аминокислотами

Консервативность Замены аминокислот, сохраняющие физико-химические свойства белков. – Полярные на полярные аспартат глутамат – Неполярные на неполярные аланин валин – Прочие похожие лейцин на изолейцин

Типы матриц весов Матрицы замен аминокислот – PAM – BLOSUM ДНК матрицы

PAM Point Accepted Mutation (Dayhoff et al.) 1 PAM = PAM 1 = 1% аминокислот мутировали. – Однако после 100 PAMов эволюции, не все остатки изменятся Некоторые остатки мутируют несколько раз Некоторые остатки вернутся к начальному состоянию Некоторые вообще не изменятся

PAM X PAM x = PAM 1 x – PAM 250 = PAM PAM 250 широко используемая матрица: Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys... A R N D C Q E G H I L K... Ala A Arg R Asn N Asp D Cys C Gln Q Trp W Tyr Y Val V

BLOSUM Blocks Substitution Matrix Веса извлекаются из статистики выравниваний родственных белков Название отображает расстояние между белками выборки – BLOSUM62 была создана на выборке последовательностей с 62% identity

Матрица весов BLOSUM50

Локальное выравнивание Задача глобального выравнивания – найти наиболее весомый путь между вершинами (0,0) и (n,m) графа. Задача локального выравнивания – найти наиболее длинный путь среди всех путей между вершинами (i,j) и (i, j ). В графе с ребрами с отрицательными весами локальное выравнивание может давать более высокий результат нежели глобальное

Глобальное выравнивание Локальное выравнивание – лучше находит консервативные сегменты. --T-CC-C-AGT-TATGT-CAGGGGACACGA-GCATGCAGA-GAC | || | || | | | ||| || | | | | |||| | AATTGCCGCC-GTCGT-T-TTCAG----CA-GTTATGT-CAGAT--C tccCAGTTATGTCAGgggacacgagcatgcagagac |||||||||||| aattgccgccgtcgttttcagCAGTTATGTCAGatc

Как? Global alignment Local alignment Мини-Глобальное выравнивание сегмента Время работы - O(n4)

Решение – free ride Вершина (0,0) Yeah, a free ride!

Алгоритм локального выравнивания Наибольшее значение s i,j – лучший вес локального выравнивания. Рекурсия: 0 s i,j = max s i-1,j-1 + δ (v i, w j ) s i-1,j + δ (v i, -) s i,j-1 + δ (-, w j ) Лишь одно отличие от глобального выравнивания.

Взвешивание делеций/вставок: простой подход. Фиксированный штраф σ за каждую делецию/вставку: – -σ за одну делецию, – -2σ за две делеции подряд, – -3σ за три делеции подряд, и т.д.

Афинный штраф за gap В природе, серии последовательных k делеций происходят чаще, чем k одиночных событий: Обычное взвешивание оценит эти два выравния одинаково Более предпочтительно Менее предпочтительно

Gaps Gap – непрерывный пропуск в одной из последовательностей. Вес гэпа длины x: -(ρ + σx) где ρ >0 - штраф за открытие гэпа, а σ – штраф за продолжение гэпа. ρ >> σ

Афинный штраф за гэпы – -ρ-σ за одну делецию 1 indel – -ρ-2σ за две делеции 2 indels – -ρ-3σ за три делеции 3 indels, etc.

Добавление ребер афинных штрафов. Сложность возрастает с O(n 2 ) до O(n 3 ) Как бы сделать попроще?

3-leveled Manhattan ρ ρ σ σ δ δ δ δ δ

The 3-leveled Manhattan Grid

Переключение между уровнями Уровни: – Основной уровень для диагональных ребер – Нижний уровень для горизонтальных ребер – Верхний уровень для вертикальных ребер Штраф за переход с основного уровня на верхний или нижний (с шагом) (- ) Штраф за проход по верхнему или нижнему уровню (- )

Алгоритм 3-х уровнего подхода s i,j = s i-1,j - σ max s i-1,j –(ρ+σ) s i,j = s i,j-1 - σ max s i,j-1 –(ρ+σ) s i,j = s i-1,j-1 + δ (v i, w j ) max s i,j s i,j Продолжит гэп в w (делеция) Начать гэп в w (делеция): с середины Продолжить гэп в v (вставка) Начать гэп в v (вставка): с середины Совпадение или несовпадение Закончить делецию: сверху Закончить вставку: снизу