Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными.

Презентация:



Advertisements
Похожие презентации
Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными.
Advertisements

Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными.
Филогенетические деревья. 1) Алфавит без пробелов5 2) Кол-во выравниваний10 3) Глобальное выравнивание10 4) Локальное выравнивание7 5) Афинные гэпы8 6)
Филогенетические деревья Что это такое Общий план действий Программы, которые строят деревья The time will come, I believe, though I shall not live to.
Филогенетические деревья (продолжение) Филогенетические деревья и таксономия организмов Сравнение деревьев Реконструкция филогении (общая схема) Расстояния.
Филогенетические деревья «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и.
Филогенетические деревья «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и.
Реконструкция филогении по биологическим последовательностям С.А.Спирин 6.III.2007, ФББ МГУ.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Теория графов Основные определения. Задание графов Графический способ – Привести пример графического задания графа, состоящего из вершин А, В и С, связанных.
Задача о максимальном потоке в сети Алгоритм Фалкерсона-Форда.
Теория графов Основные определения. Дуга Пусть имеется множество вершин V={V 1,V 2,…,V n } и пусть на нем задано бинарное отношение Г V×V, – V i Г V j.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Что нужно знать: динамическое программирование – это способ решения сложных задач путем сведения их к более простым задачам того же типа динамическое.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Линейное программирование Задача теории расписаний.
1 Комбинаторные алгоритмы Задача о k-центрах. 2 Метрическая задача o k центрах Дано: Полный граф G = (V, E), стоимости ребер cost: E Q + такие, что для.
Теория графов Алгоритмы на графах. Медиана графа Медиана вершина графа, у которой сумма кратчайших расстояний от неё до вершин графа минимальная возможная.
Лекция 5 Метод максимального правдоподобия. ММП позволяет получить по крайней мере асимптотически несмещенные и эффективные оценки параметров распределения.
Транксрипт:

Деревья (trees) «…великое Дерево Жизни заполняет земную кору своими мертвыми и сломанными ветвями и покрывает поверхность вечно ветвящимися и прекрасными побегами» Ч. Дарвин

Задача построения филогенетического дерева The time will come, I believe, though I shall not live to see it, when we shall have fairly true genealogical trees of each great kingdom of Nature. Charles Darwin Математическая задача – задача комбинаторной оптимизации: на основе «грязных» биологических данных получить дерево, возможно лучше согласованное с этими данными. Биологические задачи: сравнение 3-х и более объектов (кто на кого более похож.... ) реконструкция эволюции ( кто от кого, как и когда произошел…)

Реальные события : Данные: Построенное дерево эволюция в природе или в например, древовидный граф, лаборатории, а.к. последо- вычисленный на основе компьютерная симуляция вательности или данных, может количество отражать или не щетинок отражать реальные события >Seq4 GCGCTGFKI..... >Seq1 ASGCTAFKL... >Seq3 GCGCTLFKI ACGCTAFKI GCGCTAFKI ACGCTAFKL A -> G I -> L

Будни биоинформатика – деревья, деревья…

Основные термины Узел (node) точка разделения предковой последовательности (вида, популяции) на две независимо эволюционирующие. Соответствует внутренней вершине графа, изображающего эволюцию. Лист реальный (современный) объект; внешняя вершина графа. Ветвь (branch) связь между узлами или между узлом и листом; ребро графа. Корень (root) гипотетический общий предок.

Какие бывают деревья? Бинарное (разрешённое) (в один момент времени может произойти одно событие ) Небинарное (неразрешённое) (может ли в один момент времени произойти два события? ) Время

Какие бывают деревья? Укорененное дерево (rooted tree) отражает направление эволюции Неукорененное (бескорневое) дерево (unrooted tree) показывает только связи между узлами Время Если число листьев равно n, существует (2n-3)!! разных бинарных укоренных деревьев. По определению, (2n-3)!! = 1·3 ·... ·(2n-3) Существует (2n-5)!! разных бескорневых деревьев с n листьями

A B C A B C A B C A B C A B C D A B CD A B C D A B C D A B C D A B C D A B C D 15 укоренённых деревьев с 4 листьями 3 листа 4 листа UNROOTED ROOTED...

Рутинная процедура или как строят деревья Составление выборки последовательностей Множественное выравнивание Построение дерева фрагмент записи в виде скобочной формулы: Визуализация и редактура дерева (((((con101: ,(f53969: ,((f67220: , max4: ): ,con92: ): ): ): ,

Основные алгоритмы построения филогенетических деревьев Методы, основанные на оценке расстояний (матричные методы): Вычисляются эволюционные расстояния между всеми листьями (OTUs) и строится дерево, в котором расстояния между вершинами наилучшим образом соответствуют матрице попарных расстояний. UPGMA Neighbor-joining Минимальная эволюция Квартеты («топологический»)... Символьно-ориентированные методы: Наибольшего правдоподобия, Maximal likelihood, ML Используется модель эволюции и строится дерево, которое наиболее правдоподобно при данной модели Максимальной экономии (бережливости), maximal parsimony, MP Выбирается дерево с минимальным количеством мутаций, необходимых для объяснения данных

Как строить дерево (т.н. кластерный алгоритм) Какие две последовательности наиболее близки друг к другу? Последовательности каких групп наиболее близки друг к другу? Последовательности

Расстояния между последовательностями Для каждой пары последовательностей нужно уметь оценивать, насколько давно существовал их общий предок. Иначе говоря, нужна мера близости последовательностей. Такой мерой может служить, например, процент совпадений в наилучшем выравнивании. Обычно вместо меры близости используют расстояние. Для пары совпадающих последовательностей расстояние равно 0, и чем менее сходны последовательности, тем расстояние больше. Матрица попарных расстояний часто служит входными данными для алгоритмов реконструкции деревьев

Пример матрицы расстояний HUMAN HORSE RABIT MOUSE RAT BOVIN PIG CHICK 8

Как понимать расстояние между объектами? Как время, в течение которого они эволюционировали Как число «эволюционных событий» (мутаций) В первом случае объекты образуют ультраметрическое пространство (если все объекты наблюдаются в одно время, что, как правило, верно) Но время непосредственно измерить невозможно

Гипотеза «молекулярных часов» (E.Zuckerkandl, L.Pauling, 1962) За равное время во всех ветвях эволюции накапливается равное число мутаций Если гипотеза молекулярных часов принимается, число различий между выровненными последовательностями можно считать примерно пропорциональным времени. Отклонения от ультраметричности можно считать случайными. Эволюция реконструируется в виде ультраметрического дерева. Укоренённое дерево называется ультраметрическим, если расстояние от корня до любого из листьев одинаково.

Гипотеза молекулярных часов не всегда справедлива ABC D E (длина ветвей пропорциональна числу мутаций)

UPGMA Unweighted Pair Group Method with Arithmetic Mean разновидность кластерного метода Расстояние между кластерами вычисляется как среднее арифметическое всевозможных расстояний между последовательностями из кластеров

UPGMA (Unweighted Pair Group Method with Arithmetic Mean) разновидность кластерного метода Выбираем 2 наиболее похожие последовательности Строим новый узел и соединяем его с этими листьями; длины ветвей: d(A,k) = d(C,k) = d(A,C) / 2 Пересчитываем матрицу расстояний : d(B, A or C) = [d(B,A) + d(B,C) ] /2 = (8+9)/2 = =8,5 d(D, A or C) = [d(D,A) + d(D,C)]/2 = (12+11)/2 = =11,5 Повторяем процедуру… В конце концов получаем ультраметрическое укорененное дерево =11.5

Недостатки UPGMA Алгоритм строит ультраметрическое дерево, а это означает, что скорость эволюции предполагается одинаковой для всех ветвей дерева. Использовать этот алгоритм имеет смысл только в случае ультраметрических данных (справедливости «молекулярных часов»). Реальное деревоUPGMA

Метод Neighbor-joining Рисуем «звездное» дерево и будем «отщипывать» от него по паре листьев Пусть среднее расстояние от листа i до других листьев 1. Рассмотрим все возможные пары листьев. Выберем 2 листа i и j с минимальным значением величины M ij – u i –u j т.е. выбираем 2 узла, которые близки друг к другу, но далеки ото всех остальных.

Метод ближайших соседей (Neighbor-joining, NJ) 2. Кластер (i, j) – новый узел дерева Расстояние от i или от j до узла (i,j): D(i, (i,j)) = 0,5·(Mij + ui – uj) D(j, (i,j)) = 0,5· (Mij + uj – ui) т.е. длина ветви зависит от среднего расстояния до других вершин 3. Вычисляем расстояние от нового кластера до всех других M(ij)k = Mik+Mjk – Mij 2 5. В матрице М убираем i и j и добавляем (i, j). Повторяем, пока не останутся 3 узла...

Метод ближайших соседей (Neighbor-joining, NJ) Строит неукоренённое дерево Может работать с большим количеством данных Достаточно быстрый Хорошо зарекомендовал себя на практике: если есть недвусмысленное с точки зрения эксперта дерево, то оно будет построено. Используется при множественном выравнивании с помощью программы ClustalW (хотя именно для этого правильно было бы использовать UPGMA!) Могут появиться ветви с длиной

Стандартная ситуация Понимаем расстояние как число мутаций Реальное (неизвестное нам) дерево укоренённое, но не ультраметрическое Мы реконструируем неукоренённое дерево (топологию и длины ветвей). Его надо понимать как множество всех возможных укоренений. Если данные таковы, что гипотеза молекулярных часов не проходит, то реконструкция укорененного дерева намного менее надёжна, чем реконструкция неукоренённого

Топология дерева Топология дерева только листья, узлы, (корень) и связывающие их ветви (топология не зависит от способа изображения дерева) A B C D E AB C CDE Два изображения одной и той же топологии

Филограмма: Длина ребер пропорциональна эволюционному расстоянию между узлами. Кладограмма: представлена только топология, длина ребер игнорируется. Arabidopsis Caenorhabditis Drosophila Anopheles Tenebrio Trout Mus 0.1 substitutions per site Arabidopsis Caenorhabditis Drosophila Anopheles Tenebrio Trout Mus Как можно нарисовать построенное дерево?

Достоверность топологии. Bootstraps. Создадим псевдоданные: N множественных выравниваний той же длины, что и исходное, каждое из псевдовыравниваний - случайный набор столбцов из исходного. Построим N деревьев: на каждой внутренней ветви отметим долю случаев из N, в которых появлялся этот узел. Обычно верят в топологию, если метки ветвей на бутстрепном дереве больше 70-80%. Если меньше 50%, то не верим. В иных случаях – думаем… Есть множественное выравнивание и построенное по нему дерево. Верим ли мы в топологию дерева?

(((C:3.2,D:8.0):5.5,E:7.7):5.2,(A:6.1,B:6.3):7.5); длины ветвей (((C,D),E)),(A,B)); только топология Скобочная формула ABC D E

Пакет Phylip protdist оценка эволюционных расстояний между белковыми последовательностями (вход множественное выравнивание, выход матрица попарных расстояний) dnadist то же для нуклеотидных посл-тей neighbor реконструкция филогении по матрице расстояний методами NJ и UPGMA drawtree рисование неукоренённого дерева drawgram рисование кладограмм и филограмм У большинства программ есть Online-варианты; protdist, dnadist, neihgbor и некоторые другие включены в EMBASSY

Human Chimp Gorilla Orangutan Gibbon Traditional Human Chimp Gorilla Orangutan Gibbon Molecular

Trees plagiarized by Chuck Staben, 1998 Sergeant Joyce Kilmer, 1914