Использование биоинформатики в практической молекулярной биологии И.И. Артамонова, ИОГен РАН.

Презентация:



Advertisements
Похожие презентации
Филогенетические деревья Что это такое Общий план действий Программы, которые строят деревья The time will come, I believe, though I shall not live to.
Advertisements

Выравнивания (продолжение) С.А.Спирин, Пути эволюции последовательностей В основе случайное изменение нуклеотидной последовательности ДНК: – точечные.
Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными.
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков сходная 3D-структура.
Выравнивание биологических последовательностей А.Б.Рахманинова, С.А.Спирин 2005–2008.
BLAST Что такое выравнивание Выравнивание 2х последовательностей BLAST на NCBI: –Что это такое –Как выбрать правильную программу –Как выбрать правильную.
Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными.
Множественное выравнивание С.А.Спирин, весна 2011.
Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными.
Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
Множественное выравнивание С.А.Спирин, весна
Cравнение биологических последовательностей А.Б.Рахманинова, 2008.
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков сходная 3D-структура.
Выравнивание последовательностей. Примеры РНК-зависимые РНК полимеразы пикорнавирусов Два фрагмента ДНК бруцеллы.
Последовательности белков Эволюционные домены и их выравнивание С.А.Спирин,
Множественное выравнивание С.А.Спирин, весна 2009.
Семейства белков Паттерны и профили I курс, весна 2009, О.Н. Занегина.
Выравнивание … … последовательностей белков и его биологический смысл.
Филогенетические деревья. 1) Алфавит без пробелов5 2) Кол-во выравниваний10 3) Глобальное выравнивание10 4) Локальное выравнивание7 5) Афинные гэпы8 6)
Эволюция семейства белков Эволюционные домены и их выравнивание.
Транксрипт:

Использование биоинформатики в практической молекулярной биологии И.И. Артамонова, ИОГен РАН

План Гомологи и сходство последовательностей Что можно выяснить на основании множественного выравнивания гомологов Филогенетический анализ и восстановлении эволюции

Почему нас интересует локальное сходство последовательностей? Мы верим, что: 1. функцию, структуру и многие другие свойства белка/ДНК определяет последовательность; 2.родственные белки имеют похожие свойства молекулы, похожие по последовательности, похожи и по свойствам Т.о. свойства можно предсказать, анализируя изученные последовательности, похожие на данную

Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка) Признаки гомологичности белков сходная 3D-структура в той или иной степени похожая аминокислотная последовательность аналогичная функция разные другие соображения…

Гомологи Ортологи Паралоги Ксенологи ? ( W.M.Fitch, Syst.Zool.19,99(1970)

Ортологи последовательности, возникшие из одного общего предшественника в процессе видообразования. Ортологи, как правило, имеют одну и ту же функцию Паралоги последовательности, возникшие из одного общего предшественника в результате дупликации одного гена в одном организме. Паралоги, как правило, имеют разные функции.

Средство поиска сходства - выравнивание «Идеальное» выравнивание – запись последовательностей одна под другой так, чтобы гомологичные фрагменты оказались друг под другом. домовой скупидом водомерка лесовоз---лесо---воз ледоходлед---оход---

Схожие 3D структуры Вставка в «синей» последовательности

Как выровнять две последовательности? Цель - максимальное количество совпадений Просто написать их друг под другом Двигать друг относительно друга Вставлять пробелы лесовоз---лесо---воз ледоходлед---оход--- Гэп – пропуск в последовательности

Типы выравнивания Локальное – поиск фрагментов наиболее похожих друг на друга домовой домовой домовой скупидом водомерка водомерка Глобальное – сравнение последовательностей целиком: каждый нуклеотид (аминокислота) находит себе пару лесовоз---лесо---воз ледоходлед---оход--- ?

Критерии качества выравнивания Количество идентичных (похожих) аминокислот/нуклеотидов –Для белков – более 25% id при длине > 100 aa –Для ДНК – более 70% id при длине > 100 nt Длина выравнивания Вероятность наблюдать такое сходство случайным образом –Зависит от базы данных Score – общая мера сходства: –Зависит от программы

BLAST – Basic Local Alignment and Search Tool Локальное выравнивание Главная задача – поиск похожих последовательностей в базах данных (=> главное достоинство – скорость) Очень неточно восстанавливает сходство Основная программа поиска по БД Для специализированных БД часто предлагается на сайте БД Для поиска среди известных последовательностей есть специальные сервера

Выбор параметров Меняйте параметры только, если по умолчанию не работает (параметры по умолчанию подобраны хорошо для большинства ситуаций) Для того, чтобы выбрать более подходящие параметры надо очень ТОЧНО сформулировать задачу

Какие параметры менять? Фильтрация Low-complexity region – другой aa- состав Фильтрация: если Ваш белок содержит большой регион низкой сложности – попробуйте использовать BLAST без соответствующей фильтрации Если Ваш белок содержит очень часто встречающиеся домены, их тоже можно отфильтровать – в ручную ДНК – геном-специфичные повторы!

Параметры выравнивания Матрица:BLOSUM для локального выравнивания обычно лучше, чем PAM –Чем выше номер BLOSUM – тем строже выравнивание (BLOSUM80 вместо BLOSUM45 – более короткие выравнивания) –РАМ – чем ниже, тем строже Штрафы за делеции: –Чем больше штраф за внесение, тем короче выравнивания –Меняете матрицу – надо менять и штраф –Чем ниже номер BLOSUM (выше РАМ), тем меньше штраф за внесение делеции –Штраф за удлинение ~10 раз ниже, чем за внесение Если сравниваете удаленных гомологов, то лучше всего довольно высокий штраф за внесение делеции и низкий за удлинение Близкие гомологи – штрафы ближе друг к другу

Параметры output-формата Количество хитов Выбор базы данных (организм) Выбор порога - Expect (если хитов мало, то можно смотреть на более подозрительные) Entrez query – ключевые слова (например, protease AND human)

Что такое множественное выравнивание? Несколько гомологичных последовательностей, написанных друг под другом оптимальным способом: Гомологичные остатки один под другим Остатки в одинаковом пространственном положении один под другим Остатки, имеющие одинаковую функциональную нагрузку, один под другим Одинаковые или похожие остатки один под другим

Какое выравнивание интереснее?

Какие бывают выравнивания? локальные глобальныелокальныеглобальные множественныепарные Выравнивания

Зачем нужно множественное выравнивание? Перенос аннотации Предсказание функции каждого остатка (например, выявление остатков, составляющих активный центр фермента) Моделирование 3D – структуры Реконструкция эволюционной истории последовательности (филогения) Выявление паттерна функциональных семейств и сигналов в ДНК Построение доменных профайлов Аккуратный дизайн праймеров для PCR анализа

Как выбрать последовательности для множественного выравнивания? Выравнивайте белки, а не ДНК, если есть выбор Последовательностей лучше много, но не слишком (~ 10-15) В выборке лучше избегать: слишком похожих последовательностей (>90% id) слишком разных последовательностей (

Изучая новую последовательность Выборка на основе BLAST Подробно охарактеризованные последовательности - аннотация Совсем неохарактеризованные (hypothetical proteins) – достаточный уровень разнообразия Выравнивание по всей длине e-value – – Избегать partial sequences

Современные методы построения множественного выравнивания (MSA, multiple sequence alignment): Алгоритм ClustalW (реализации ClustalX, emma из EMBOSS) – до сих пор самый популярный, но уже устаревший метод (на Web – например, Muscle – быстрее и немного точнее, самый новый и довольно модный ( T-COFFEE – заметно точнее, но существенно медленнее (

TCoffee Построение множественных выравниваний Оценка достоверности существующего выравнивания Использование 3-D структуры при построении выравнивания Сравнение и комбинирование выравниваний

JalView – редактирование выравниваний Другие программы для редактирования выравниваний (stand-alone): GeneDoc; CINEMA; Seaview; Belvu; Bioedit; DCSE Список -

Как читать множественное выравнивание? Хорошее выравнивание – высоко- консервативные блоки, перемежающиеся блоками с инсерциями/делециями ДНК – консервативные островки Качество – score, локально важно consensus – строка с символами *, :,. – консервативный, похожие по размеру и гидропатичности, похожие по размеру ИЛИ гидропатичности, соответственно

Если консервативны только отдельные столбцы W, Y, F – консервативное гидрофобное ядро, стабилизирующая роль в ядре. Если и мутируют, то между собой G,P - фланкируют бета-стренды и альфа- спирали С – участвует в образовании дисульфидных мостиков – одинаковое расстояние между H,S – каталитические центры протеаз K, R, D, E – заряженные аминокислоты, участвуют в связывании лигандов L – редко консервативны. Формируют leucine zipper – белок-белковые взаимодействия

Что такое филогенетическое дерево? Филогения - раздел биологии, изучающий родственные взаимоотношения разных групп живых организмов. Филогению отображается обычно в виде "эволюционных древ" или систематических названий. Филогенетика (=молекулярная филогенетика) – те же взаимоотношения, но на уровне отдельных белковых (генных) семейств

Зачем нужны филогенетические деревья? Биологические задачи: сравнение 3-х и более объектов (кто на кого более похож.... ) реконструкция эволюции ( кто от кого, как и когда произошел…)

Основные термины Узел (node) точка разделения предковой последовательности (вида, популяции) на две независимо эволюционирующие. Соответствует внутренней вершине графа, изображающего эволюцию. Лист (leaf, OTU – оперативная таксономическая единица) реальный (современный) объект; внешняя вершина графа. Ветвь (branch) связь между узлами или между узлом и листом; ребро графа. Корень (root) гипотетический общий предок. Клада (clade) - группа двух или более таксонов или последователь- ностей ДНК, которая включает как своего общего предка, так и всех его потомков.

Рутинная процедура, или как строят деревья? Составление выборки последовательностей Множественное выравнивание Построение дерева фрагмент записи в виде скобочной формулы: Визуализация и редактура дерева (((((con101: ,(f53969: ,((f67220: , max4: ): ,con92: ): ): ): ,

(((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5); длины ветвей (((C,D),E)),(A,B)); только топология Скобочная формула (Newick format) A B C D E

Как выбирать последовательности для дерева? Кроме случаев очень близких последовательностей, проще работать с белками (а не с ДНК) Придерживайтесь небольшой выборки (< 50 последовательностей) Избегайте: –фрагментов; –ксенологов; –рекомбинантных последовательностей; –многодоменных белков и повторов Используйте outgroup (последовательность, ответвившаяся от общего предка заведомо (но минимально!) раньше разделения интересующих групп-клад)

Самое главное – хорошее выравнивание! Максимальный вклад в финальное дерево: нельзя построить хорошее дерево по плохому выравниванию Блоки, содержащие много гэпов, плохо выровненные N- и C- концы можно просто вырезать.

Основные алгоритмы построения филогенетических деревьев Методы, основанные на оценке расстояний (матричные методы): Вычисляются эволюционные расстояния между всеми листьями (OTUs) и строится дерево, в котором расстояния между вершинами наилучшим образом соответствуют матрице попарных расстояний. UPGMA Neighbor-joining Минимальная эволюция Квартеты («топологический»)... Наибольшего правдоподобия, Maximal likelihood, ML Используется модель эволюции и строится дерево, которое наиболее правдоподобно при данной модели Максимальной экономии (бережливости), maximal parsimony, MP Выбирается дерево с минимальным количеством мутаций, необходимых для объяснения данных

Как понимать расстояние между объектами? Как время, в течение которого они эволюционировали Как число «эволюционных событий» (мутаций) В первом случае объекты образуют ультраметрическое пространство (если все объекты наблюдаются в одно время, что, как правило, верно) Но время непосредственно измерить невозможно

Метод ближайших соседей (Neighbor-joining, NJ) Строит неукоренённое дерево Может работать с большим количеством данных Достаточно быстрый Хорошо зарекомендовал себя на практике: если есть недвусмысленное с точки зрения эксперта дерево, то оно будет построено. Могут появиться ветви с длиной

Филограмма: Длина ребер пропорциональна эволюционному расстоянию между узлами. Кладограмма: представлена только топология, длина ребер игнорируется. Arabidopsis Caenorhabditis Drosophila Anopheles Tenebrio Trout Mus 0.1 substitutions per site Arabidopsis Caenorhabditis Drosophila Anopheles Tenebrio Trout Mus Как можно нарисовать построенное дерево?

Достоверность топологии. Bootstraps Создадим псевдоданные: N множественных выравниваний той же длины, что и исходное, каждое из псевдовыравниваний -случайный набор столбцов из исходного (выборка с возвращением!) Построим N деревьев: на каждой внутренней ветви отметим долю случаев из N, в которых появлялся этот узел. Обычно верят в топологию, если метки ветвей на бутстрепном дереве больше 70-80%. Если меньше 50%, то не верим. В иных случаях – думаем… Есть множественное выравнивание и построенное по нему дерево. Верим ли мы в топологию дерева?

MEGA: филогенетический анализ последовательностей

To start Расширение –.fas (нуклеотиды или аминокислоты). Надо конвертировать в megaформат (из текстового редактора)

MEGA: Web Browser Выбрать в FASTA или GenBank формат; Send to Text; И затем Add to alignment

Sequence data explorer Можно анализировать подвыборку как по последовательностям, так и по позициям; считает статистику кодонов, вариабельные, консервативные сайты, синглетоны и сайты, информативные для парсимонии, 0-, 2- и 4- вырожденные сайты; можно также анализировать статистику белка; можно (не) анализировать отдельные домены

Построение выравниваний Множественное выравнивание ClustalW; выравнивание на уровне белка А также – анализировать прямо хроматограммы с секвенаторов; Выбирать последовательности из результатов бласта; Искать мотивы в последовательностях и т.п. МОЖНО РЕДАКТИРОВАТЬ ВЫРАВНИВАНИЯ!!!!

Построение деревьев Distance Matrix Explorer – можно посмотреть попарные расстояния, ошибку их вычисления, вычислить всевозможные средние Деревья – bootstrap, тесты на относительную скорость эволюции, на внутренние ветви. Maximum Likelihood – только в MEGA 5 (альтернатива, on-line – PhyML,

Tree Explorer Можно нарисовать дерево в разных формах, редактировать дерево разнообразно; построить консенсусное дерево; оценить время расхождения при гипотезе молекулярных часов; оценить, какой нуклеотид или аминокислота в какой вершине и т.п.

Подписи к рисункам Перечисление необходимых параметров, которые использовались, а также правильные ссылки

Comparative genomics of zinc regulons Two major roles of zinc in bacteria: Structural role in DNA polymerases, primases, ribosomal proteins, etc. Catalytic role in metal proteases and other enzymes

Zinc and (paralogs of) ribosomal proteins L36L33L31S14 E. coli, S.typhi –– – +– + – K. pneumoniae –– – –– – – Y. pestis,V. cholerae – – – +– + – B subtilis – – + –– + –– +– + – +– + S. aureus – – – –– – – – – +– + Listeria spp. – – –– – – – +– + E. faecalis – – – – – – + –– + – S. pne., S. mutans – – – –– – – –– S. pyo., L. lactis – – – –– – – – – +– + nZUR pZUR AdcR

Zn-ribbon motif (Makarova-Ponomarev-Koonin, 2001) L36L33L31S14 E. coli, S.typhi (–)(–) – ( – ) + – K. pneumoniae (–)(–) – ( – ) – – Y. pestis,V. cholerae ( – ) – ( – ) + – B subtilis (–)(–)( – ) + – ( – ) + S. aureus (–)(–)( – ) – – – ( – ) + Listeria spp. (–)(–)( – ) – – ( – ) + E. faecalis (–)(–) ( – ) – – – ( – ) + – S. pne., S. mutans (–)(–)( – ) – – – (–)(–) S. pyo., L. lactis (–)(–)( – ) – – – ( – ) + nZUR pZUR AdcR

Summary of observations: Makarova-Ponomarev-Koonin, 2001: –L36, L33, L31, S14 are the only ribosomal proteins duplicated in more than one species –L36, L33, L31, S14 are four out of seven ribosomal proteins that contain the zinc-ribbon motif (four cysteines) –Out of two (or more) copies of the L36, L33, L31, S14 proteins, one usually contains zinc-ribbon, while the other has eliminated it Among genes encoding paralogs of ribosomal proteins, there is (almost) always one gene regulated by a zinc repressor, and the corresponding protein never has a zinc ribbon motif

Bad scenario Zn-rich conditions Zn-deplete conditions: all Zn utilized by the ribosomes, no Zn for Zn-dependent enzymes

Regulatory mechanism ribosomes Zn-dependent enzymes R Sufficient Zn Zn starvation R repressor

Good scenario Zn-rich conditions Zn-deplete conditions: some ribosomes without Zn, some Zn left for the enzymes