Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова.

Презентация:



Advertisements
Похожие презентации
Cравнение биологических последовательностей А.Б.Рахманинова, 2008.
Advertisements

Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
Семейства белков Паттерны и профили I курс, весна 2009, О.Н. Занегина.
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков сходная 3D-структура.
Парные выравнивания биологических последовательностей А.Б.Рахманинова, С.А.Спирин 2008 (продолжение)
Быстрые пути эволюции белков. Домен. БД PFAM, InterPro. Четвертый семестр, занятие 6, 2010, А.Б.Рахманинова.
Выравнивание биологических последовательностей А.Б.Рахманинова, С.А.Спирин 2005–2008.
Множественное выравнивание С.А.Спирин, весна 2009.
Множественное выравнивание С.А.Спирин, весна
Выравнивания (продолжение) С.А.Спирин, Пути эволюции последовательностей В основе случайное изменение нуклеотидной последовательности ДНК: – точечные.
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков сходная 3D-структура.
Множественное выравнивание С.А.Спирин, весна 2011.
Cравнение биологических последовательностей На основе лекции А.Б.Рахманиновой, 2008.
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
BLAST Что такое выравнивание Выравнивание 2х последовательностей BLAST на NCBI: –Что это такое –Как выбрать правильную программу –Как выбрать правильную.
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
Последовательности белков Эволюционные домены и их выравнивание С.А.Спирин,

IV семестр «Функция и эволюция» БЛОК 1 «Эволюция» – 4 занятия Молекулярная филогенетика. Задачи и подходы. Лекция- семинар, (АБР) Реконструкция.
Семейства белков Pfam Rubens: Holy Family with St Elizabeth.
Транксрипт:

Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова

Повторяем… Зачем строят выравнивания аминокислотных последовательностей? Данные: новая последовательность Биологические задачи: Предсказание функции, а.к. остатков в «активном центре» Предсказание 3D-структуры Реконструкция эволюции Общий подход к решению оценка сходства последова- тельностей: Выбор алгоритма и программы Построение выравнивания Анализ выравнивания

Какое выравнивание интереснее?

Повторяем… Какие бывают выравнивания аминокислотных последовательностей? Выравнивания парные множественные глобальныелокальные глобальныелокальные классический алгоритм Нидельмана-Вунша, см. needle из EMBOSS, алгоритм Маейрса- Миллера, см. stretcher из EMBOSS ……… классический алгоритм Смита-Ватермана, см. matcher, water из EMBOSS …….. Динамическое программирование Carillo& Lipman, см MSA Эвристические алгоритмы прогрессивного выравнивания, см. ClustalX, emma в EMBOSS, muscle, T-Coffee, ……. Dialign, ProDA

Какие выравнивания строит программа BLASTP? BlastP (Basic Local Alignment Search) – программа для быстрого поиска в БД последовательностей, похожих на заданную. Программа строит локальные выравнивания, но не гарантирует, что это будут оптимальные выравнивания!

Зачем нужны множественные выравнивания?

Построение парного выравнивания по алгоритму Нидельмана- Вунша (пример из упр. студента ФББ) Можно найти самое лучшее выравнивание за время t seq1: MA-RR seq2: CADRQ при условии,что вес совпадения: 2 вес замены: -1 штраф за делецию: -2 В чем проблема? Построение множественного выравнивания N последовательностей t =L N !!!

Алгоритм ClustalW – пример эвристического прогрессивного алгоритма Руководящее дерево Очевидные недостатки: 1)Результат зависит от порядка выравниваний; 2)«один раз гэп – всегда гэп»

Современные методы построения множественного выравнивания (MSA, multiple sequence alignment): Алгоритм ClustalW (реализации ClustalX, emma из EMBOSS) – до сих пор самый популярный, но уже устаревший метод. muscle (программа установлена на kodomo) – быстрее и немного точнее. T-COFFEE – заметно точнее, но существенно медленнее

Построение множественных выравниваний и их анализ Развитие представлений об эволюции белков Создание коллекций мотивов в аминокислотных последовательностях

Biologists must constantly keep in mind that what they see was not designed, but rather evolved. It might be thought, therefore, that evolutionary arguments would play a large part in guiding biological research, but this is far from the case. Francis Crick What Mad Pursuit (1988) pp

Мутации, рекомбинация, …. ?

Точечные мутации и их последствия ATAAAGGTCCTGATAAAG GT A CTG «молчащая» мутация IleLysValLeuIleLysValLeu ATAAAGGTCCTGATAAAG T T TC CTG замена а.к.остатка IleLysValLeuIleLysPheLeu ATAAAGGTCCTGATA T T AG GTCCTG терминация трансляции IleLysValLeuIleTer ATAAAGGTCCTGATAAAGTCCCT сдвиг рамки IleLysValLeuIleLysSer

Геномные перестройки: рекомбинации, транспозиции Следствие 1 - дупликации Кластер –глобинов в 16-ой хромосоме человека Кластер –глобинов в 11-ой хромосоме человека

Геномные перестройки: рекомбинации, транспозиции Следствие 2 – перемешивание (перетасовка) доменов 223 белка 243 белка 507 белков 25 белков 9 белков 2 белка 12 белков

Домен – единица эволюции, структуры и функции белков. Домен – компактная, относительно независимо сворачивающаяся структура, относительно консервативная в процессе эволюции. Белок может состоять из одного или многих доменов. nitrogen fixation positive activator protein

Вернемся к дупликации… Эволюция глобинов

Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков сходная 3D-структура в той или иной степени похожая аминокислотная последовательность разные другие соображения…

Гомологи Ортологи Паралоги Ксенологи ? ( W.M.Fitch, Syst.Zool.19,99(1970)

Ортологи последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию Паралоги последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции.

Гэп – пропуск в последовательности Задача выравнивания = задача поиска сходства. Сходство не то же cамое, что гомология !

Построение множественных выравниваний и их анализ Развитие представлений об эволюции белков Создание коллекций мотивов в аминокислотных последовательностях

Мотив ? Мотив в аминокислотной последовательности - набор консервативных остатков, важных для функции белка и расположенных на определенном (обычно коротком) расстоянии друг от друга в последовательности. Мотив структуры (структурный мотив) – часто встречающийся в белках элемент пространственной структуры ( - спираль, -шпилька, -поворот). В общем случае, структурные мотивы не обязательно соответствуют мотивам в аминокислотным последовательностях. Один домен может содержать один или несколько мотивов в аминокислотной последовательности. Мотив может не входить в домены. Не в любом выравнивании легко найти мотив.

Паттерн (pattern) – Позиционно специфическая матрица весов (PSSM) – Профиль–HМM - Подпись (signature) – «Oтпечатки пальцев» (fingerprints) – Кластер - Место, сайт(site) - Мотив (motif) – Домен (domain) – Семейство – Суперсемейство - Основные понятия и термины ?

Пример простого мотива Алкогольдегидрогеназа 6 (человек) : GHEgAGIvesiGegV Алкогольдегидрогеназа класса 3 (рис) : GHEaAGIvesvGegV Алкогольдегидрогеназа, специфичная к пропанолу (кишечная палочка) : GHEgIGVvaevGpgV Распознающее правило типа «паттерн»: G - H - E - x - {EL} - G - {AP} - x(4) - [GA] - x(2) - [IVSAC] Паттерн – регулярное выражение UNIXa: Например, выражение [AC]-x-V-x(4)-{ED} читается как Ala или Cys- х-Val- х- х- х - х- (любой остаток, но не Glu и не Asp)

Более сложное распознающее правило – PSSM. Какая а.к. последовательность будет иметь максимальный вес по этому профилю? A C D E F G H I K L M N P Q R S T V W Y

Pfam Большая коллекция множественных выравниваний, доменов, семейств и профилей-HMM для них. Состоит из 2-х частей: PfamA – курируемая часть, покрывает 74% UniProt PfamB – большое число маленьких семейств из автоматически сгенерированной базы доменов ProDom, не вошедших в PfamA. Удобна для анализа доменной структуры белков.

Построение множественных выравниваний и их анализ Развитие представлений об эволюции белков Создание коллекций мотивов в аминокислотных последовательностях

Типичные задачки Описать доменную архитектуру заданной последовательности Сравнить доменную организацию нескольких белков Получить множественное выравнивание полных последовательностей заданной выборки, выделить консервативные позиции. *Сравнить множественные выравнивания, полученные с помощью разных инструментов. Получить множественное выравнивание определенных доменов белков заданной выборки, выделить консервативные а.о. Найти на множественном выравнивании возможный мотив. *Создать распознающее правило для найденного мотива и найти белки, удовлетворяющие этому правилу. Проверить, не соответствует ли найденный вами мотив уже известному мотиву. *Определить степень консервативности какого-либо остатка в заданном белке (например, степень консервативности остатков, контактирующих с лигандом)