GeneGo. Your GPS in pathway analysis. Confidential © GeneGo Inc. Анализ микрочиповых данных в R/Bioconductor Александр Ишкин 20.12.2010.

Презентация:



Advertisements
Похожие презентации
Python как инструмент Data Mining Лекция 4.4 Инструменты Data Mining Зырянов Александр Олегович.
Advertisements

Учебный курс Объектно-ориентированный анализ и программирование Лекция 4 Трансформация логической модели в программный код Лекции читает кандидат технических.
Тема 11 Медицинская помощь и лечение (схема 1). Тема 11 Медицинская помощь и лечение (схема 2)
Название системы - iTest Текущая версия Официальный сайт - Лицензия -GPL v2 Компоненты системы iTestServer серверная.
Профили экспрессии (паттерны) различаются у нормальных и раковых клеток или при различных типах рака. Излечимые и неизлечимые виды лейкозов дают разные.
УМК «Школа России» Русский язык, 4класс Соавтор: Малахова Т.С. Контрольное изложение повествовательного текста «Две встречи» 1.
Докладчик: Кин Кирилл, ВМИ-115 Windows Azure Демонстрация разработки и внедрения простейшего сервиса.
2 Методы анализа поисковых параметров сайта Прямой метод обращения к поисковым машинам Online сервисы Различные программы, устанавливаемые на компьютер.
1 Экология питания Москва, Россия. 26 октября, 2010 Юмей Лиин, д.н старший научный сотрудник института оптимального здоровья Нутрилайт (NUTRILITE) Калифорния,
Help: настройка Visual Studio.Net для создания консоль-приложения на основе Intel C++ с применением OpenMP. Инструменты «Практическое параллельное программирование.
Powerpoint Templates Page 1 Язык разметки гипертекста HTML.
Microarray gene expression profiling analysis combined with bioinformatics in multiple sclerosis К. Федоров.
Молекулярный филогенез. ancestor descendant 1 descendant 2 Предположение: жизнь - монофилетична Любые два организма имеют общего предка в прошлом.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
ОСОБЕННОСТИ РЕАЛИЗАЦИИ ДОПОЛНИТЕЛЬНЫХ МЕРОПРИЯТИЙ ПО СНИЖЕНИЮ НАПРЯЖЕННОСТИ НА РЫНКЕ ТРУДА СУБЪЕКТОВ РОССИЙСКОЙ ФЕДЕРАЦИИ В 2011 ГОДУ РОССИЯ 2010.
1 Импорт прайс-листов в базу данных ПК «Мастер-Тур»
Date: File:UPPROG_05E.1 SIMATIC S7 Siemens AG All rights reserved. Information and Training Center Knowledge for Automation Редактирование.
ВАРИАЦИОННЫЕ МЕТОДЫ КЛАССИФИКАЦИОННОГО АНАЛИЗ ДАННЫХ Бауман Е.В.(ВАВТ,ИПУ), Дорофеюк А.А.(ИПУ)
COLLADA COLLAborative Design Activity Клишин Алексей, 8409.
1 ТрадиционныйКомпетентностный Главная идея: знания приводят к личностному успеху. Главная идея: к личностному успеху приводит опыт самостоятельного решения.
Транксрипт:

GeneGo. Your GPS in pathway analysis. Confidential © GeneGo Inc. Анализ микрочиповых данных в R/Bioconductor Александр Ишкин

Confidential © GeneGo Inc.2 Установка R: – Установка Bioconductor – –На данный момент полный набор – более 400 пакетов «на все случаи жизни». –Код для установки базового набора пакетов из R: –Этого хватит для большинства задач по анализу экспрессионных микрочипов. R и Bioconductor. Установка. source(" biocLite()

Confidential © GeneGo Inc.3 Микрочипы. Различные типы. Практически все типы чипов можно анализировать при помощи Bioconductor: –Экспрессия генов Affymetrix GeneChip Illumina BeadChip Прочие (в том числе кДНК-микрочипы) –Вариабельность генома Копийность ДНК (aCGH) SNP-чипы –микроРНК-чипы –Метилирование –Экзонные чипы –Выстилающие (tiling) чипы Проблема в том, чтобы найти подходящие пакеты

Confidential © GeneGo Inc.4 Загрузка данных Для каждого типа чипов свои критерии Субъективная вещь Контроль качества (QC) Вычитание фонового шума Фильтрация «плохих» зондов Нормализация Трансформация Препроцессинг Дифференциальная экспрессия Кластарный анализ Классификация Функциональный анализ Анализ Экспрессионные чипы. Последовательность действий

Confidential © GeneGo Inc.5 Нормализация Огромное количество способов Самый прижившийся – квантильная нормализация

Confidential © GeneGo Inc.6 Трансформация данных Суть в том, чтобы убрать зависимость ст. отклонения от величины сигнала – она нарушает предположения многих тестов В основном используется логарифмирование

Confidential © GeneGo Inc.7 Для всех пакетов Bioconductor, имеющих дело с чипами, основная структура данных – класс ExpressionSet x

Confidential © GeneGo Inc.8 Взят из базы данных NCBI GEO; ID: GSE2737 Чип: Affymetrix U95A зонда (probe sets) Экспрессия генов в псориатических бляшках 4 образца – пораженная кожа, 4 – непораженная кожа, 3 – кожа здоровых людей (эти 3 на другом чипе) Тестовый массив данных

Confidential © GeneGo Inc.9 Загружаем «низкоуровневые» данные – CEL файлы. CDF – определяют состав probe set В исходных CDF 20% последовательностей зондов не выравниваются с транскриптами Custom CDF - CDF/CDF_download.asp CDF/CDF_download.asp Загрузка данных Affy ##1. Load Affymetrix data library(affy) celfiles

Confidential © GeneGo Inc.10 Специфические контрольные параметры для Affy QC - Affy library(simpleaffy) affy.raw

Confidential © GeneGo Inc.11 Более общие критерии – насколько образцы похожи друг на друга Корреляция образцов Сходство распределений сигналов QC - Affy library(arrayQualityMetrics) affy.raw

Confidential © GeneGo Inc.12 RMA делает следующие вещи: –Вычитание фонового шума –Квантильная нормализация сигналов –Логарифмирование (трансформация) –Суммирование сигналов (несколько сигналов probes 1 сигнал probe set, в нашем случае – сигнал с гена.) В общем случае нормализацию и трансформацию надо делать отдельно Для Affymetrix есть много таких алгоритмов (еще один – GCRMA). Кто из них самый-самый – вопрос открытый. Препроцессинг - Affy ##Set alternative CDF

Confidential © GeneGo Inc.13 После RMA имеем массив данных, с которым можно работать Запись в файл Препроцессинг - Affy write.exprs(affy.data, "data/affy_rma.txt")

Confidential © GeneGo Inc.14 Для начала необходимо определить группы образцов, которые мы будем сравнивать. В нашем случае можно задать их прямо в коде. Обычно лучше скомпоновать отдельный файл с аннотацией. Если задача состоит в поиске дифференциальной экспрессии, то это самый ответственный момент. Анализ дифференциальной экспрессии ##4. Compose phenotypic data disease.state

Confidential © GeneGo Inc.15 Анализ дифференциальной экспрессии

Confidential © GeneGo Inc.16 Код для вышеописанной последовательности действий Анализ дифференциальной экспрессии ##5. Perform differential expression analysis ##Create design library(limma) design

Confidential © GeneGo Inc.17 Результаты: Запись в файл Анализ дифференциальной экспрессии ##Write ##Convert IDs to Entrez Gene IDs de.genes$ID

Confidential © GeneGo Inc.18 Задача: исследовать структуру массива данных, выявить группы схожих генов/образцов Иерархическая кластеризация Кластеризация ##6. Clustering. affy.dist

Confidential © GeneGo Inc.19 Задача: исследовать структуру массива данных, выявить группы схожих генов/образцов Principal Component Analysis (PCA) Кластеризация ##PCA affy.pca

Confidential © GeneGo Inc.20 Packages: beadarray, lumi Достаточно простая последовательность действий, если данные представлены в «родном» формате BeadStudio Загрузка данных Illumina ##Import Illumina data library(lumi) illumina.file

Confidential © GeneGo Inc.21 Суть: для каждого зонда посчитать общий относительный сигнал и выделить участки с последовательными координированными изменениями экспрессии Препроцессинг aCGH и SNP-чипов: crlmm, oligo, DNAcopy, aroma.affymetrix, snpChip Сегментация: DNAcopy, BioHMM, RankCopy Обработка данных по copy number variation

Confidential © GeneGo Inc.22 Работа с данными next-gen sequencing – Biostrings, ShortRead, BSGenome – chipseq (анализ данных ChIP-Seq) – Genominator, Deseq (анализ данных RNA-Seq) Загрузка данных и метаданных из баз NCBI через R – GEOMetadb, GEOquery (GEO – микрочипы, RNA-seq) – SRAdb (NCBI Sequence Reads Archive - секвенирование) Аннотация – GOstats, biomaRt, microarray annotation packages ( hgu95a ) Интерфейс UCSC Genome Browser – rtracklayer Анализ биологических сетей – BioNet, RCytoscape Дополнительные возможности BioC

Confidential © GeneGo Inc.23 Взаимодействие с другими языками программирования – rJava; – rcpp 4 Взаимодействие с базами данных – ROracle, RSQLite… ; Параллелизация – R/parallel; multicore Работа с большими массивами данных – – Bigmemory, biglm Дополнительные возможности R

Confidential © GeneGo Inc.24 Introduction to R by Longhow Lam Quick-R, сборник материалов по применению статистических методов в Rhttp:// Обучающие материалы по R

Confidential © GeneGo Inc.25 IDE –Emacs + ESS ( –Eclipse plugin ( Текстовые редакторы –Tinn-R ( –Notepad++ ( Во всех этих программах –Подсветка синтаксиса R –Запуск кода в консоль R Редакторы для R