Негеномные данные М.Гельфанд «Сравнительная геномика» БиБи 4 курс, Осень 2005.

Презентация:



Advertisements
Похожие презентации
Развитие цветка резухи Таля двойная кластеризац ия – на генах и на условиях.
Advertisements

Системная биология – сети М.Гельфанд «Сравнительная геномика» БиБи 4 курс.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.
Сравнительный анализ последовательностей ДНК БиБи 4 курс Осень 2005.
Системная биология - модели М.Гельфанд «Сравнительная геномика» БиБи 4 курс.
Лекция 5 Наталья Володина. Транскрипция Транскрипция, трансляция Альбертс глава 5.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ СРЕДНЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «КРАСНОЯРСКИЙ МЕДИКО-ФАРМАЦЕВТИЧЕСКИЙ КОЛЛЕДЖ ФЕДЕРАЛЬНОГО.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
12 апреля 2011 г. Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Мембранные белки. Транспортные белки.
Распознавание регуляторных сигналов Факультет биоинженерии и биоинформатики МГУ 2-й курс (набор 2006 года) Осенний семестр 2007 Д. А. Равчеев, М. С. Гельфанд.
Трансляция. Регуляция биосинтеза белка.. План лекции 1.Условия, необходимые для трансляции. 2.Этапы биосинтеза белка. 3.Посттрансляционный процессинг.
Выполнила: Паросова О. ГИП Гистограмма Закон (плотность) распределения случайной величины Нормальный закон распределения Функция Лапласа Основные.
Анализ данных Лекция 5 Методы построения математических функций.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В. Дихтяр Теория и методология социально- экономических исследований в туристской.
Постановка задачи двуклассового распознавания 1.Описание объекта. Пространство признаков. 2.Обучающее множество. Truth информация. 3.Решающее правило.
Доцент Аймаханова А.Ш.. 1. Статистические гипотезы в медико- биологических исследованиях. 2. Параметрические критерии различий. 3. Непараметрические критерии.
Транксрипт:

Негеномные данные М.Гельфанд «Сравнительная геномика» БиБи 4 курс, Осень 2005

Массовые негеномные данные (ко)-экспрессия Белок-ДНКовые взаимодействия Состав и концентрации белков Белок-белковые взаимодействия Одинарные и двойные мутанты (жизнеспособность, фенотипы) Всякие разные эксперименты (text mining) Много баз данных Мало удобных средств анализа

Expression arrays (a.k.a. олигонуклеотидные чипы) Олигонуклеотиды (зонды) нанесены на подложку Туда же льют (радиоактивно или флуоресцентно – можно 2 метки) меченую РНК или кДНК (например – один раунд с затравкой полиТ) – получаем (комплементарные цепи) 3-концы генов Меряем в каждой лунке интенсивность – она пропорциональна концентрации

«техническая» биоинформатика Как подобрать зонды –Геномные соображения Не участок малой сложности (прилипнет к чему угодно) Не повтор (прилипнет ко мноим копиям) Уникальность (семейства генов) –Физические соображения Одинаковые температуры плавления Отсутствие комплементарности между зондами Отсутствие вторичной структуры в олигонуклеотиде Отсутствие вторичной структуры в мишени Как переделать интенсивности в концентрации (анализ изображений) Нормировка измерений в одном эксперименте / однородной серии экспериментов –Учет различий в условиях гибридизации и т.п. –Учет неравномерности по полю –Вычитание фона –Нормировка интенсивностей флуоресцентных меток (регрессия) –Логарифмы, потому что хотим нормального распределения ошибок приблизительно равномерного разброса наблюдений по шкале приблизительно колоколообразного распределения наблюдений вычитать, а не делить при анализе (статистические методы так лучше работают)

До и после логарифмирования (две метки; фибробласты, инфицированные Toxoplasma)

гистограммы до после

Виды чипов кДНКовые –ПЦР-амплификация известных генов –(можно сколь угодно либерально – брать все сомнительные гены) –Надо учитывать альтернативный сплайсинг, полиаденилирование, промоторы (трудно) –В зависимости от способа приготовления меченой кДНК, можно предпочитать 3-концы Выстилающие (tiling) –Весь геном – по ~30 нуклеотидов со сдвигом ~10 нуклеотидов… –… за исключением повторов, микросателлитов и т.п.

Нормировка Для применения статистических методов надо, чтобы распределения были сравнимы (одинаковые средние и среднеквадратичные отклонения) для этого для каждого массива (первоначальных) данных вычитают среднее и делят на среднеквадратичное отклонение у получившегося распределения среднее равно 0, среднеквадратичное отклонение равно 1

Типичные задачи классификация измерений (например, диагностика) выбор генов, дифференциально экспрессирующихся в двух классах (диагностика, до/после) поиск групп ко-регулируемых генов

один ген, много измерений в двух независимых группах – одинаков ли уровень экспрессии? стандартные методы сравнения двух распределений –параметрические (t-тест) – предполагается нормальность распределений, но: выборки неоднородные, распределения не только не нормальные, но могут быть бимодальные, Outliers => ложно-положительные результаты (принимаем желаемое за действительное) –непараметрические (Уилкоксона-Манна-Уитни) небольшая статистическая сила => ложно-отрицательные результаты (можно пропустить значимый эффект)

bootstrapping берем те же данные, распределяем случайным образом по группам того же объема, и проводим такой же тест на сравнение распределений (например, вычисляем t-статистику) но теперь не смотрим в таблицу t- распределения, а производим эту операцию очень много раз и получаем распределение статистики на имеющихся данных и смотрим, какова же значимость

один ген, много пар измерений – есть ли разница? вычитаем первое измерение из второго и проверяем «среднее=0?» те же тесты, что и раньше

множественное тестирование статистическая значимость 1% означает, что в случайных данных 1 из 100 измерений (генов) будет иметь такое значение тысячи генов консервативный подход – поправка Бонферрони (умножать уровень значимости на количество генов) –слишком консервативно – ничего не значимо

bootstrapping альтернативный подход – посчитать, сколько генов пройдет данный порог на p-value в случайных данных того же объема эта доля генов – false positives выбрать уровень значимости с приемлемым уровнем false positives поправка Бонферрони соответствует 0% false positives

классификация выборок (тканей, диагнозов и т.п.): распознавание образов k ближайших соседей перцептрон и линейный дискриминантный анализ: измерения (скажем, пациенты) – точки в многомерном пространстве (координаты – уровни экспрессии генов); проводим плоскость, которая наилучшим образом разделяет выборки нейронный сети (обобщение) квадратичный анализ support vector machines (другое обобщение)

понижение размерности и over-interpretation можно обойтись меньшим числом измерений (гены-маркеры) не следует трактовать различия в уровне экспрессии как непосредственные причины (скажем, болезни) можно выбрать другой набор генов, который даст такое же качество диагноза

валидация стандартные правила гигиены теории распознавания образов обучающая выборка – подбор параметров тестирующая выборка – подбор модели экзамен – ОДИН РАЗ

корреляции между уровнями экспрессии генов сильная положительная r = 0.97 слабая отрицательная r = –0.43 никакой r = 0.054

временные ряды клеточный цикл (синхронизированные культуры) или последствия вмешательства измерения уровней экспрессии через фиксированные отрезки времени кластеризация полученных профилей экспрессии

Кластеризация профилей

мера сходства между профилями: нужна нормировка (корреляция нормирует автоматически)

методы иерархической кластеризации ближнего соседа (single linkage) дальнего соседа (complete linkage) средневзвешенное расстояние (average linkage)

мера близости – корреляция, метод кластеризации – среднеевзвешенное

кластеризация k-средних k-means clustering количество кластеров задается заранее создать случайные кластеры найти центроиды перераспределить точки – отнести точку к тому кластеру, к центроиду которого эта точка ближе повторить пока не сойдется не получается иерархической системы: система кластеров при k+1 не сводится к разделению одного из k кластеров на два

разнообразные условия – двойная кластеризация (biclustering) если по столбцам – не времена, а различные условия (да еще и из разных экспериментов), то не обязательно корреляция должна наблюдаться на всем множестве условий двойная кластеризация: выделение групп генов и групп условий, т.ч. экспрессия этих генов скоррелирована в этих условиях

базы данных результатов экспериментов по анализу экспрессии ArrayExpress Stanford Microarray Database GEO (Gene Expression Omnibus) Стандартизованная форма данных об эксперименте (MIAME: Minimal Iinformation About a Microarray Experiment)

GEO

Развитие цветка резухи Таля двойная кластериза ция – на генах и на условиях

Один ген – разные условия (времена, мутанты)

программы R (GNU) Matlab Expression Profiler (EBI)

Expression Profiler

prophecies_html/prophecies.html

STRING: trpB co-expression

протеомика – двумерный форез двумерный форез –пятна (масса/заряд) масс-спектрометрия –пептиды в обоих случаях нужен геном. Для фореза – точные гены (старты! точнее даже белки без сигнальных пептидов)

Pride

протеомика – белковые чипы белки наносятся на подложку, потом можно измерять активность (например, связывание)

белок-белковые взаимодействия комплексы – масс-спектрометрия дрожжевые двугибридные системы –GAL4 –два домена: димеризационный (связывает галактозу) и ДНК-связывающий –димер связывается с оператором –димеризационный и ДНК-связывающий домены могут быть в разных белках (связь через тестируемые белки)

Protein-protein interactions MIPS, mammals: MIPS, yeast: proj/yeast/CYGD/interaction/ MRC, links: GenomeWeb/prot-interaction.html DIP, many model organisms: dip/Main.cgi

STRING: trpB high- throughput experiments

ChIP-chip (chromatin immunoprecipitation) Briefly, cells are fixed with formaldehyde, harvested by sonication, and DNA fragments that are crosslinked to a protein of interest are enriched by immunoprecipitation with a specific antibody. After reversal of the crosslinking, the enriched DNA is amplified and labeled with a fluorescent dye using ligation-mediated PCR (LM-PCR). A sample of DNA that has not been enriched by immunoprecipitation is subjected to LM-PCR in the presence of a different fluorophore, and both IP-enriched and unenriched pools of labeled DNA are hybridized to a single DNA microarray containing all yeast intergenic sequences.DNA microarray containing all yeast intergenic sequences

фенотипы essentiality –18.7% non-essential genes in yeast –14.4% non-essential genes in E. coli –… в «богатых» условиях RNAi synthetic lethals

MIPS

Как это используют Так же, как любые слабые соображения

Ингибитор РНКазы L [Huynen, Gabaldon] COG1245 – присутствует во всех эукариотах и археях У человека RPLI1 – ингибитор РНКазы L (интерферон- зависимый путь деградации (вирусных) РНК) Но РНКазы L у архей нет. Что же там делает этот белок?

Филогенетический профиль (присутствие во всех археях и эукариотах, отсутствие во всех бактериях) => 55 COGов –Трансляция, биогенез рибосом, транскрипция, репликация, рекомбинация, репарация В эукариотах – коэкспрессия с рибосомными белками и белками процессинга рРНК В дрожжах – белок-белковое взаимодействие с HCR1 (процессинг рРНК) Эксперимент (трипаносома): слабая экспрессия RLI1 => уменьшение общего уровня синтеза белков N-концевой домен содержит 4 цистеина – связывание с РНК? Предсказание: RLI1 – фактор процессинга рРНК Эксперимент: и впрямь –мутанты по RLI1 имеют дефект процессинга пре-рРНК –в дрожжах RLI1 связан с незрелыми и зрелыми малыми субъединицами рибосом

Систематический анализ генов дрожжей [Kemmeren et al. 2005] Белок-белковые взаимодействия Корреляция профилей экспрессии Ко-локализация Сходство фенотипов

KRE33 killer toxin resistant, no GO annotation 20 связанных генов 13: часть комплекса U3 snoRNP (процессинг рРНК) 4: метаболизм мРНК

FUN11: function unknown now Все 5 соседей – инициация трансляции

YDR091c: putative member of the ATP-binding cassette superfamily of non-transporters 10 из 15 соседей – инициация трансляции

YGR205w – HSP104 (ppi+exp+loc) HSP104: белок теплового шока; мутанты термочувствительны. Шаперон. Коэкспрессия HSP104 и YGR205w наблюдается при разных шоках Предсказание: YGR205w тоже участвует в ответе на стресс Эксперимент: мутанты по YGR205w имеют повышенную термоустойчивость Та же система, противоположное действие – разные фенотипы

ASC1 (no annotation) 4 гена – процессинг рРНК 6 факторов инициации трансляции Ydj1 и ZUO1 имеют домены, гомологичные DnaJ (шаперон, работает при тепловом и (другом) шоке), ZUO1 – шаперон, связанный с рибосомой Предсказания: –Ydj1 – шаперон –ASC1 – a role in stress- induced misfolding Эксперимент: мутанты по Ydj1 и ASC1 плохо растут при повышенной концентрации NaCl и KCl

Путь синтеза лейцина в дрожжах Начинается в митохондрии, заканчивается в цитоплазме Транспортер изопропилмалата (промежуточный продукт) не известен Кандидат: YOR271cp. Мотивировка: –Локализован в митохондрии –4 трансмембранных сегмента –Консервативный сайт связывания лейцинового регулятора Leu3p –Регуляторная область YOR271c связывает Leu3p в ChIP-chip эксперименте (специфичность и чувствительность эксперимента примерно по 50%, других кандидатов с консервативными сайтами нет) –Гомологичен транспортеру трикарбоксилатов крысы (хотя эксперимент был подвернут сомнению; вторая возможная функция – сидерофлексин, белок, участвующий в гомеостазе железа)