Биоинформатика. Распознавание генов Таблица генетического кода.

Презентация:



Advertisements
Похожие презентации
ТВ-биология (Отрывок, взгляд и нечто) М.С.Гельфанд 23 января 2009.
Advertisements

Биоинформатика: биологические тексты М.С.Гельфанд 29 октября 2006 Первый фестиваль науки МГУ Факультет биоинженерии и биоинформатики.
Распознавание генов Факультет биоинженерии и биоинформатики МГУ, второй набор, второй курс. Апрель 2005 М. Гельфанд (лекции) А. Неверов (задания) Е. Ермакова,
Геномы и эволюция М.Гельфанд 20 февраля Из записной книжки Дарвина, 1837.
Распознавание генов Факультет биоинженерии и биоинформатики МГУ, второй курс М. Гельфанд (лекции) Е.Ермакова (задания, занятия)
Распознавание регуляторных сигналов Факультет биоинженерии и биоинформатики МГУ, первый набор, второй курс. Май 2004 М. Гельфанд (лекции) Д. Равчеев (задания)
2. ФУНКЦИИ транскрипция трансляция сплайсинг репликация.
Биоинформатика, или молекулярная биология in silico М.С.Гельфанд 15 января 2008 Институт проблем передачи информации им. А.А.Харкевича РАН.
Трансляция белка. Центральная догма (основной постулат) молекулярной биологии – матричный синтез. Этапы биосинтеза белка: ДНК репликация ДНК транскрипция.
Развитие цветка резухи Таля двойная кластеризац ия – на генах и на условиях.
Биоинформатика, или молекулярная биология in silico М.Гельфанд Семинар в ИППИ 7 апреля 2006.
БИОСИНТЕЗ БЕЛКА. Центральная догма молекулярной биологии.
Сформировать знания о генетическом коде и его свойствах. Сформировать знания о генетическом коде и его свойствах. Охарактеризовать основные этапы реализации.
Часть С, задание 5. Полипептид состоит из 20 аминокислот. Определите число нуклеотидов на участке гена, который кодирует первичную структуру этого полипептида,
Три модели репликации ДНК. Правильная - полуконсервативная (Matthew Meselson и Franklin Stahl, 1958) Q: Что было бы для двух других моделей? Коетки растут.
Изучение процесса синтеза белков в рибосоме Рассмотреть принцип, лежащий в основе процесса синтеза и- РНК; Определить свойства генетического кода; Сформировать.
Наследственность свойство организмов обеспечивать материальную и функциональную преемственность между поколениями организмов. Ген - участок молекулы ДНК,
11 класс Изучение процесса синтеза белков в рибосоме Рассмотреть принцип, лежащий в основе процесса синтеза и- РНК; Определить свойства генетического кода;
Сравнение митоза и мейоза. Сравнение функций гладкого и шероховатого ЭПС.
Системная биология – сети М.Гельфанд «Сравнительная геномика» БиБи 4 курс.
Транксрипт:

Биоинформатика

Распознавание генов

Таблица генетического кода

Поиск генов если известен белок: просто

… или родственный белок: тоже просто

Генетический код: стоп-кодоны

Открытые рамки считывания Ген должен располагаться внутри области от стоп- кодона до следующего стоп-кодона (в той же фазе)

Сильное перепред- сказание (Aeropyrum pernix)

Генетический код: синонимы

Codon usage (статистика употребления кодонов) частоты кодонов отличаются от частот триплетов в некодирующих областях –различия в частотах аминокислот в белках –различия в частотах синонимичных кодонов частоты синонимичных кодонов –специфичны для генома –коррелируют с концентрациями тРНК

GenMark, окно 96 нт

Генетический код: старт-кодоны

Начала генов Bacillus subtilis dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG

Участок связывания рибосом dnaN ACATTATCCGTTAGGAGGATAAAAATG gyrA GTGATACTTCAGGGAGGTTTTTTAATG serS TCAATAAAAAAAGGAGTGTTTCGCATG bofA CAAGCGAAGGAGATGAGAAGATTCATG csfB GCTAACTGTACGGAGGTGGAGAAGATG xpaC ATAGACACAGGAGTCGATTATCTCATG metS ACATTCTGATTAGGAGGTTTCAAGATG gcaD AAAAGGGATATTGGAGGCCAATAAATG spoVC TATGTGACTAAGGGAGGATTCGCCATG ftsH GCTTACTGTGGGAGGAGGTAAGGAATG pabB AAAGAAAATAGAGGAATGATACAAATG rplJ CAAGAATCTACAGGAGGTGTAACCATG tufA AAAGCTCTTAAGGAGGATTTTAGAATG rpsJ TGTAGGCGAAAAGGAGGGAAAATAATG rpoA CGTTTTGAAGGAGGGTTTTAAGTAATG rplM AGATCATTTAGGAGGGGAAATTCAATG

Сравнительный анализ (один и тот же ген в нескольких геномах) Sty TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Stm TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Sen TCGCTCG--CAGCGGAAAGAGGATTACGCCCTTCGCCTGGAGGCTGTGCAGGGGC---GCCGGAGATGGGATGCATAATT Eco TTGCCCG--TGCCAGACGGCAGATTATCTCCCTGACCTGGTGGTTGCCCAGGAGGAGGGCCGGAAATAGGTTGTATCATT Kpn ----CGG--TGGCGCAGTGCCTGATGGG-CCTCGCCCTGGAGGACGGTCTGGCAT---ATCAGCAAGGGGGTGCGTCATG Ype TTGTTAGAACAGGGGAAAACGGTAAACAGTGTGGCATTAGATGTCGGTTATAGCT-----CCGCCTCTGCTTTTATCGCC * * * * * * * * * * * Sty AATTATCCTTTAAC CATAAATCTGAGCAATA-TATGCTTGGCGGCCAGATTATGGC--ACACTTGTCCGG Stm AATTATCCTTTAAC CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG Sen AATTATCCTTTAAC CATAAATCTGAGCAATA-TATGCCTGGCGGCCAGATTATGGC--ACACTTGTCCGG Eco ACGTATCCTTATAC CTGAAATCTTCGCAAG--TATGCCTGGCCGCGAGATTATGGC--ACACTTGTCCGG Kpn ATTCATCCTTTCGATATCGCGGTGCTGGAACCAGGTGATGAGTATGCCTGGCGGCCAGATTATGGC--ACACTTCCCCAG Ype ATGTTTCAGCAAATAT CGGGTACCA-CGCCTGAGCGTTTCCGGCGGGGCAATAGTGGCTTATACTAAGCCCC * ** * * * * *** * ** **** * *** ** Sty TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Stm TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Sen TTAACTCTCGTT-CTCAAACAG------GTACGACAGTC--GTGAAAATTCTCGTTGATGAAAATATGCCTTACGCCCGC Eco TTAACTCTCGT--CTCATACAG------GTAACACAAAC--GTGAAAATCCTTGTTGATGAAAATATGCCTTATGCCCGC Kpn TTAACTCTCGTT-CTCAGACAG------GTACTGAACT---GTGAAAATCCTCGTTGATGAAAATATGCCCTATGCCCGT Ype CTGTTTTTCATCTGTATGGCAGTTCGCTGTCGGAGAGTAAAGTGAAAATTCTGGTTGATGAAAATATGCCGTACGCTGAG * * ** * * *** ** * ******** ** ***************** ** ** Гены консервативнее, чем межгенные области (точнее, особенности эволюции другие)

rbsD в E. coli Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAAAAAAATGAAAAAAGGC Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG

rbsD в энтеробактериях Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

rbsD в энтеробактериях: ответ Sty AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Sen AGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Stm GGGGTTACACTGCGGC-CAGCGAAACGTTTCGCTAGTGGAGCAGAAAAATGAAGAAAGGC Eco AGGATTAAACTGTGGGTCAGCGAAACGTTTCGCTGATGGAGAA-AAAAATGAAAAAAGGC Ype TTTTCTAAACTCCTTGTTAGCGAAACGTTTCGCTCTTGGAGTA-GATCATGAAAAAAGGT ** *** **************** ***** * * ***** ***** Sty ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Sen ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Stm ACCGTACTCAACTCTGAAATCTCGTCGGTCATTTCCCGTCTGGGGCATACTGATACTCTG Eco ACCGTTCTTAATTCTGATATTTCATCGGTGATCTCCCGTCTGGGACATACCGATACGCTG Ype GTATTACTGAACGCTGATATTTCCGCGGTTATCTCCCGTCTGGGCCATACCGATCAGATT * ** ** **** ** ** **** ** *********** ***** *** *

Мораль Комплексный подход: использование многих разнородных соображений, каждое из которых по отдельности – слабое Сравнительный подход: одновременный анализ множества геномов (находящихся на различных эволюционных расстояниях друг от друга)

Идеология Сходство => гомология (общность происхождения) Гомология => сходная функция Принцип Пирсона: консервативно то, что важно –функциональные мотивы в белках –регуляторные сайты в ДНК –не обязательно последовательности структура белка и РНК расположение генов на хромосоме ко-экспрессия генов

Transporters Two main classes –ATP-dependent TM-protein (permease) ATPase Substrate-binding protein –Secondary (symporters, antiporters) Difficult to study in experiment (compared to enzymes) Relatively easy to identify –Similarity to known transporters –Prediction of transmembrane segments Difficult to predict specificity H+H+

Функциональный анализ транспортеров Предсказание общей функции –гомология –анализ трансмембранных сегментов Отнесение к функциональной подсистеме (метаболическому пути) –ко-локализация –ко-регуляция Предсказание специфичности –анализ филогенетического профиля конечный продукт биосинтетического пути: присутствует в геномах, не имеющих пути (импорт заменяет биосинтез) промежуточный продукт биосинтетического пути; может заменять часть пути «выше по течению» исходный продукт катаболического или биосинтетического пути: не встречается в геномах, где этот путь отсутствует

It is difficult to predict specificity by sequence analysis (nickel-oligopeptide family, substrate-binding NikA)

PnuC family of cofactor transporters

Riboflavin biosynthesis pathway

5 UTR regions of riboflavin genes from various bacteria

Conserved secondary structure of the RFN-element Capitals: invariant (absolutely conserved) positions. Lower case letters: strongly conserved positions. Dashes and stars: obligatory and facultative base pairs N: any nucleotide. X: any nucleotide or deletion

Attenuation of transcription Terminator The RFN element Antiterminator

Attenuation of translation SD-sequestor The RFN element Antisequestor

Рибопереключатель RFN: регуляторный механизм Transcription attenuation Translation attenuation

YpaA/RibU: транспортёр рибофлавина 5 предсказанных ТМ-сегментов => потенциальный транспортёр регуляторный RFN-элемент => ко- регуляция с генами метаболизма рибофлавина => транспорт рибофлавина или предшественника S. pyogenes, E. faecalis, Listeria: есть ypaA, нет генов биосинтеза рибофлавина => транспорт рибофлавина Предсказание: YpaA – рибофлавиновый транспортёр (Gelfand et al., 1999) Проверка: генетический анализ ( Кренева и др., 2000) биохимический эксперимент ( Burgess et al., 2006)

Биотиновый транспортер BioY

Метаболическая реконструкция тиаминового биосинтеза = thiN (confirmed) (Gram-positive bacteria) (Gram-negative bacteria) Transport of HMP Transport of HET

yuaJ(=thiT): тиаминовый транспортер (возможно, H + - зависимый) в фирмикутах 6 предсказанных трансмембранных сегментов Почти всегда регулируется THI-рибопереключателями Встречается в геномах, в которых отсутствует тиаминовый путь (Streptococci); В B. cereus импорт тиамина сопряжен с током протонов (Arch. Microbiol., 1977)

Почти всегда регулируются THI-рибопереключателями Не встречаются в геномах, в которых отсутствует тиаминовый путь Всегда встречаются вместе с thiD и thiE В ряде геномов (Pasteurellacee, Brucella некоторые фирмикуты) встречаются в отсутствие thiC thiX-thiY-thiZ и ykoF-ykoE-ykoD- ykoC: предсказанные АТФ-зависимые транспортеры HMP

Co и Ni ко-локализация (хромосомные локусы) –транспортеры Ni – с генами никель-зависимых ферментов –транспортеры Co – с генами синтеза кобаламина ко-регуляция –транспортеры Ni – фактор транскрипции NikR –транспортеры Co – рибопереключатель В12

Пять семейств транспортеров

Новое семейство транспортеров Co и Ni NikM CbiM Ni 2+ Co 2+ + CbiN + NikL, NikK + NikN + NikL

Структура локусов B12-элементсайт связывания NikRгены

Структура cbiO=NikO~bioM cbiQ=NikQ~bioN

Проверка: тест на транспорт ионов Co Ni

Для транспорта достаточно компонент МN (первый пример такого АВС-транспортера) cbiMNQO cbiMNQ cbiMN cbiM контроль

Вспомним BioY. Действительно, BioY достаточно; у BioMNY более крутая кинетика

Экспериментальные подтверждения рибофлавинтиаминфолат

Дмитрий Родионов –регуляция транскрипции –метаболическая реконструкция –идентификация транспортеров Алексей Витрещак –рибопереключатели А.А. Миронов –программное обеспечение Томас Хеббельн (Берлин) – Cо, Ni, биотин Андрей Остерман (Сан Диего) – рибофлавин Эндрю Хансон (Флорида) – тиамин Дирк Слотблум (Гронинген) – фолат

Transporters Two main classes –ATP-dependent TM-protein (permease) ATPase Substrate-binding protein –Secondary (symporters, antiporters) Difficult to study in experiment (compared to enzymes) Relatively easy to identify –Similarity to known transporters –Prediction of transmembrane segments Difficult to predict specificity H+H+

It is difficult to predict specificity by sequence analysis (nickel-oligopeptide family, substrate-binding NikA)

PnuC family of cofactor transporters

Riboflavin biosynthesis pathway

5 UTR regions of riboflavin genes

RFN-element Capitals: invariant (absolutely conserved) positions. Lower case letters: strongly conserved positions. Dashes and stars: obligatory and facultative base pairs Degenerate positions: R = A or G; Y = C or U; K = G or U; B= not A; V = not U. N: any nucleotide. X: any nucleotide or deletion

RFN: the mechanism of regulation Transcription attenuation Translation attenuation

YpaA: riboflavin transporter 5 predicted TM segments => a transporter Upstream RFN element => co-regulation with riboflavin genes => transport of riboflavin / precursor S. pyogenes, E. faecalis, Listeria spp.: ypaA, no riboflavin pathway => transport of riboflavin Prediction: YpaA is riboflavin transporter (Gelfand et al., 1999) Verification: by genetic analysis (Kreneva et al., 2000) directly (Burgess et al., 2006) => RibU ypaA is regulated by riboflavin (Lee et al., 2001) … via attenuation of transcription (Winkler et al., 2003)

Biotin transporter BioY Identification: –co-localization –co-regulation –phylogenetic profiling Additional components –ATPase(?) bioM –Permease(?) bioN

Thiamin biosynthesis = thiN (confirmed) (Gram-positive bacteria) (Gram-negative bacteria) Transport of HMP Transport of HET

yuaJ(=thiT): thiamine transporter 6 predicted TM-segments Regulated by THI riboswitches Streptococci: ThiT, no thiamine pathway

Regulated by THI riboswitches Newer occurs in genomes lacking thiamine pathway Always co-occurs with thiD and thiE Sometimes occurs without thiC ykoFEDC: ATP-dependent HMP transporter

Cobalt and Nickel Co-localization –Ni transporters with genes for Ni- dependent enzymes –Co transporters with cobalamine biosynthesis genes Co-regulation –Ni transporters by transcription factor NikR –Co transporters by В12 riboswitich

Structure of the loci B12 riboswitchNikR binding sitegenes

Five families of transporters

New ATP-dependent transporters NikM CbiM Ni 2+ Co 2+ + CbiN + NikL, NikK + NikN + NikL

Dmitry Rodionov Thomas Eitinger

Test 1: predicted specificity is correct Co Ni

Structure: too many components

Biotin transporter BioY ATPase BioM ~ CbiO = NikO Permease BioN ~ CbioQ = NikQ

Test 2: MN components are suffucient (ATPase and permease are dispensable) cbiMNQO cbiMNQ cbiMN cbiM control

Test 3: BioY is sufficient Even if the genome had BioMNY; BioMNY has better cinetics

Tip of the iceberg?

Validations RibU: riboflavinThiT: thiamin FolT: folate (like BioY)

Universal energizing component + specific components

Цель (глобальная) Предсказать свойства организма путем (компьютерного) анализа его генома (возможно, с использованием дополнительной информации: эпигенетика, белок-белковые взаимодействия и т.п.) сейчас: метаболическая реконструкция, транспортные системы, ответ на стресс и т.д. Понять эволюцию геномов/организмов

«Неприкладная» биоинформатика Молекулярная эволюция –филогения генов –таксономия организмов –горизонтальные переносы и т.п. –положительный и отрицательный отбор что сделало нас людьми? лекарственная устойчивость –эволюция геномов Системная биология –строение геномов –сети взаимодействий белок-белковые регуляция транскрипции сигнальные пути

Задачи биоинформатики С проверяемым ответом –предсказание функции, регуляции, структуры и т.п.: ставим эксперимент С непроверяемым ответом –эволюционные деревья но если бы знать все геномы всех (в том числе очень давно умерших) существ, то задача станет тривиальной С принципиально непроверяемым ответом (который зависит от операциональных определений) –идентификация повторов, консервативных областей, островов метилирования и т.п. (так ли он непроверяем?) Без ответа (общеописательные) –статистика геномов (изохоры и т.п.) –описание регуляторных и пр. сетей (hubs, мотивы и т.п.)

«В принципе не проверяемые ответы» (зависящие от определений) Так ли они непроверяемы? Повторы –если иметь все геномы, то можно описывать вставки/замены фрагментов генома и их последующее расхождение Консервативные области –если иметь все геномы, то можно просто оценивать локальную скорость эволюции (но это будет функцией времени) Статистика ДНК (локальный нуклеотидный состав) –это следствие локального паттерна замен, так и надо описывать Микросателлиты –можно ли «функционально» (а не операционально) определить микросателлит, исходя из динамики вставок/замен/дупликаций? CpG-острова –можно ли «функционально» (а не операционально) определить CpG-остров, исходя из паттерна мутаций, состояния метилирования и т.п.? (тут уже эволюция + эксперимент)

Цель (недостижимая?) откуда оно все взялось? первое приближение – реконструкция генома/свойств LUCA реально ли заглянуть глубже? реально ли смоделировать? (времена) реально ли смоделировать «по частям»?