Множественные выравнивания Зачем все это нужно? Глобальные множественные выравнивания – основы алгоритма, программы Где искать на Web? Можно ли редактировать.

Презентация:



Advertisements
Похожие презентации
Множественное выравнивание С.А.Спирин, весна
Advertisements

Блок 3. Семейства белков I. Множественное выравнивание Первый курс, весна 2008, А.Б.Рахманинова.
Множественное выравнивание С.А.Спирин, весна 2011.
Множественное выравнивание С.А.Спирин, весна 2009.
Последовательности белков Эволюционные домены и их выравнивание С.А.Спирин,
Биоинформатика: биологические тексты М.С.Гельфанд 29 октября 2006 Первый фестиваль науки МГУ Факультет биоинженерии и биоинформатики.
Программа MEME Множественное локальное выравнивание
Распознавание регуляторных сигналов Факультет биоинженерии и биоинформатики МГУ, первый набор, второй курс. Май 2004 М. Гельфанд (лекции) Д. Равчеев (задания)
Использование биоинформатики в практической молекулярной биологии И.И. Артамонова, ИОГен РАН.
Эволюция семейства белков Эволюционные домены и их выравнивание.
Название последовательности Номер столбца выравнивания Номер последнего в строке остатка ИЗ ЭТОЙ ПОСЛЕДОВАТЕЛЬНОСТИ Консервативный остаток Функционально.
2. ФУНКЦИИ транскрипция трансляция сплайсинг репликация.
Парные выравнивания биологических последовательностей А.Б.Рахманинова, С.А.Спирин 2008 (продолжение)
MXG
Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова.
Решение задач биоинформатики при помощи веб - и интернет - сервисов.
Выравнивание последовательностей. Простое взвешивания +1 : вес совпадения -μ : штраф за несовпадение -σ : штраф за делецию/вставку Вес выравнивания =
Swiss-Prot – одна из первых баз данных белковых последовательностей, gold standard белковой аннотации. Аннотация выполнена вручную группой профессиональных.
Minimum spanning trees. Minimum Connector Algorithms Kruskals algorithm 1.Select the shortest edge in a network 2.Select the next shortest edge which.
Компьютерный анализ белковой последовательности Анализируют только аминокислотную последовательность белка, пренебрегают взаимодействием между боковыми.
Транксрипт:

Множественные выравнивания Зачем все это нужно? Глобальные множественные выравнивания – основы алгоритма, программы Где искать на Web? Можно ли редактировать множественное выравнивание? Локальные множественные выравнивания

Что такое множественное выравнивание? Несколько гомологичных последовательностей, написанных друг под другом оптимальным способом: Гомологичные остатки один под другим Остатки в одинаковом пространственном положении один под другим Остатки, имеющие одинаковую функциональную нагрузку, один под другим Одинаковые или похожие остатки один под другим

Какое выравнивание интереснее?

Какие бывают выравнивания? локальные глобальныелокальныеглобальные множественныепарные Выравнивания

Зачем нужно множественное выравнивание? Перенос аннотации Предсказание функции каждого остатка (например, выявление остатков, составляющих активный центр фермента) Моделирование 3D – структуры Реконструкция эволюционной истории последовательности (филогения) Выявление паттерна функциональных семейств и сигналов в ДНК Построение доменных профайлов Аккуратный дизайн праймеров для PCR анализа

Как выбрать последовательности для множественного выравнивания? Выравнивайте белки, а не ДНК, если есть выбор Последовательностей лучше много, но не слишком (~ 10-15) В выборке лучше избегать: слишком похожих последовательностей (>90% id) слишком разных последовательностей (

Изучая новую последовательность Выборка на основе BLAST Подробно охарактеризованные последовательности - аннотация Совсем неохарактеризованные (hypothetical proteins) – достаточный уровень разнообразия Выравнивание по всей длине e-value – – Избегать partial sequences

Подготовка выборки BLAST => сохранить все последовательности разом в FASTA формате или сразу на выравнивание Имена последовательностей: не более 15 символов без пробелов как можно меньше служебных символов – можно _ нельзя использовать одинаковых имен!

Как можно строить глобальное множественное выравнивание? Построение множественного выравнивания N последовательностей t =L N !!! Можно пытаться строить точно также, как и парное – слева направо, максимизируя вес выравнивания по столбцам (алгоритм Нидельмана –Вунша)

Алгоритм ClustalW – пример эвристического прогрессивного алгоритма Руководящее дерево Очевидные недостатки: 1)Результат зависит от порядка выравниваний; 2)«один раз гэп – всегда гэп»

Современные методы построения множественного выравнивания (MSA, multiple sequence alignment): Алгоритм ClustalW (реализации ClustalX, emma из EMBOSS) – до сих пор самый популярный, но уже устаревший метод (на Web – например, Muscle – быстрее и немного точнее, самый новый и довольно модный ( bin/muscle/input_muscle.py) bin/muscle/input_muscle.py T-COFFEE – заметно точнее, но существенно медленнее (

Использование ClustalW

Какие output-форматы бывают Post-script, pdf, html – только графика FASTA – последовательности отдельно, но с пробелами (PIR – аналогично) MSF (ALN, Phylip, Selex …) – наглядно. Сверху – описание выборки: программа, название последовательностей, их длина, вес в выравнивании; потом само выравнивание блоками по 60 остатков

Перевод форматов: READSEQ ( Аналогично: SEQCHECK

ClustalW - output

JalView – редактирование выравниваний Другие программы для редактирования выравниваний (stand-alone): GeneDoc; CINEMA; Seaview; Belvu; Bioedit; DCSE Список -

TCoffee Построение множественных выравниваний Оценка достоверности существующего выравнивания Использование 3-D структуры при построении выравнивания Сравнение и комбинирование выравниваний

TCoffee Выход – файлы clustalw_aln, fasta_aln, phylip, score_html, score_pdf, dnd fileclustalw_alnfasta_alnphylipscore_htmlscore_pdfdnd file

Как использовать TCoffee для других целей Множественное выравнивание на основе 3D- структуры (Expresso): надо заменить 1 или более имен в FASTA формате последовательностей на PDB-идентификатор соответствующей структуры. Тест – Template file (число структур). Если не в PDB – Advanced Alignment evaluation – готовое выравнивание на вход. На выходе – раскрашенное выравнивание (score.html, score.pdf): каждый столбец покрашен в соответствии с качеством – красный/оранжевый/желтый - хорошо

Как читать множественное выравнивание? Хорошее выравнивание – высоко- консервативные блоки, перемежающиеся блоками с инсерциями/делециями ДНК – консервативные островки Качество – score, локально важно consensus – строка с символами *, :,. – консервативный, похожие по размеру и гидропатичности, похожие по размеру ИЛИ гидропатичности, соответственно

Если консервативны только отдельные столбцы W, Y, F – консервативное гидрофобное ядро, стабилизирующая роль в ядре. Если и мутируют, то между собой G,P - фланкируют бета-стренды и альфа- спирали С – участвует в образовании дисульфидных мостиков – одинаковое расстояние между H,S – каталитические центры протеаз K, R, D, E – заряженные аминокислоты, участвуют в связывании лигандов L – редко консервативны. Формируют leucine zipper – белок-белковые взаимодействия

Локальное множественное выравнивание – постановка задачи Ряд последовательностей, в каждой из которых есть интересное слово (либо точно, либо с небольшим количеством замен) известной длины => Найти и описать это слово Идея. Будем искать перепредставленное слово. Стартуем со всех слов в выравнивании, ищем лучшее его представление в каждой из последовательностей и потом уточняем по полученному профайлу

dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG Cons tacataaaggaggtttaaaaat Как это выглядит

Gibbs sampler Lets A be a signal (set of sites), and I(A) be its information content. At each step a new site is selected in one sequence with probability P ~ exp [(I(A new )] For each candidate site the total time of occupation is computed. (Note that the signal changes all the time)

Соответствующие программы Название программы Адрес(а) Gibbs Samplerhttp://bioweb.pasteur.fr/seqanal/interfaces/gibbs- simple.html Pratthttp:// eMotifhttp://motif.stanford.edu/distributions/emotif/ MEMEhttp://meme.sdsc.edu/meme/meme.html TEIRESIAShttp://cbcsrv.watson.ibm.com/Tspd.html Bioprospectorhttp://robotics.stanford.edu/~xsliu/BioProspector/ Improbizerhttp:// izer.html BLOCK-Makerhttp://blocks.fhcrc.org/blocks/blockmkr/make_bloc ks.html

Представление результатов таких программ – Logos Программы построения –

Greedy algorithms (MEME) Find a signal among all k-words (assuming that we know the length signal). For all k-words its too time-consuming (k~16). So initially we consider only k-words that were present in the fragments. For each k-word construct a matrix of sites: alignment of best copies of the k-word from every sequence fragment. Select the best k-word. What is the measure for comparison of matrices? Information content!

Greedy algorithms. Contd Select the k-word with maximal information content Problem. We considered only k-words from our sequences => may select not the signal (the consensus word), but only its best representative in our sample Solution. For each k-word from the sample construct PWM and reconstruct the frequency matrix based on it. Repeat until stabilization of the matrix. Use the consensus of this matrix.

Limitation of greedy algorithms Started from k-words in our sequences and increase the information content at each step => find a local (not global) maximum of the functional. We need an alternative algorithm that will not be greedy!

Frequency matrix I = j b f(b,j)[log f(b,j) / p(b)] Information content