Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемЛюдмила Тузлукова
1 GeneGo. Your GPS in pathway analysis. Confidential © GeneGo Inc. Анализ микрочиповых данных в R/Bioconductor Александр Ишкин
2 Confidential © GeneGo Inc.2 Установка R: – Установка Bioconductor – –На данный момент полный набор – более 400 пакетов «на все случаи жизни». –Код для установки базового набора пакетов из R: –Этого хватит для большинства задач по анализу экспрессионных микрочипов. R и Bioconductor. Установка. source(" biocLite()
3 Confidential © GeneGo Inc.3 Микрочипы. Различные типы. Практически все типы чипов можно анализировать при помощи Bioconductor: –Экспрессия генов Affymetrix GeneChip Illumina BeadChip Прочие (в том числе кДНК-микрочипы) –Вариабельность генома Копийность ДНК (aCGH) SNP-чипы –микроРНК-чипы –Метилирование –Экзонные чипы –Выстилающие (tiling) чипы Проблема в том, чтобы найти подходящие пакеты
4 Confidential © GeneGo Inc.4 Загрузка данных Для каждого типа чипов свои критерии Субъективная вещь Контроль качества (QC) Вычитание фонового шума Фильтрация «плохих» зондов Нормализация Трансформация Препроцессинг Дифференциальная экспрессия Кластарный анализ Классификация Функциональный анализ Анализ Экспрессионные чипы. Последовательность действий
5 Confidential © GeneGo Inc.5 Нормализация Огромное количество способов Самый прижившийся – квантильная нормализация
6 Confidential © GeneGo Inc.6 Трансформация данных Суть в том, чтобы убрать зависимость ст. отклонения от величины сигнала – она нарушает предположения многих тестов В основном используется логарифмирование
7 Confidential © GeneGo Inc.7 Для всех пакетов Bioconductor, имеющих дело с чипами, основная структура данных – класс ExpressionSet x
8 Confidential © GeneGo Inc.8 Взят из базы данных NCBI GEO; ID: GSE2737 Чип: Affymetrix U95A зонда (probe sets) Экспрессия генов в псориатических бляшках 4 образца – пораженная кожа, 4 – непораженная кожа, 3 – кожа здоровых людей (эти 3 на другом чипе) Тестовый массив данных
9 Confidential © GeneGo Inc.9 Загружаем «низкоуровневые» данные – CEL файлы. CDF – определяют состав probe set В исходных CDF 20% последовательностей зондов не выравниваются с транскриптами Custom CDF - CDF/CDF_download.asp CDF/CDF_download.asp Загрузка данных Affy ##1. Load Affymetrix data library(affy) celfiles
10 Confidential © GeneGo Inc.10 Специфические контрольные параметры для Affy QC - Affy library(simpleaffy) affy.raw
11 Confidential © GeneGo Inc.11 Более общие критерии – насколько образцы похожи друг на друга Корреляция образцов Сходство распределений сигналов QC - Affy library(arrayQualityMetrics) affy.raw
12 Confidential © GeneGo Inc.12 RMA делает следующие вещи: –Вычитание фонового шума –Квантильная нормализация сигналов –Логарифмирование (трансформация) –Суммирование сигналов (несколько сигналов probes 1 сигнал probe set, в нашем случае – сигнал с гена.) В общем случае нормализацию и трансформацию надо делать отдельно Для Affymetrix есть много таких алгоритмов (еще один – GCRMA). Кто из них самый-самый – вопрос открытый. Препроцессинг - Affy ##Set alternative CDF
13 Confidential © GeneGo Inc.13 После RMA имеем массив данных, с которым можно работать Запись в файл Препроцессинг - Affy write.exprs(affy.data, "data/affy_rma.txt")
14 Confidential © GeneGo Inc.14 Для начала необходимо определить группы образцов, которые мы будем сравнивать. В нашем случае можно задать их прямо в коде. Обычно лучше скомпоновать отдельный файл с аннотацией. Если задача состоит в поиске дифференциальной экспрессии, то это самый ответственный момент. Анализ дифференциальной экспрессии ##4. Compose phenotypic data disease.state
15 Confidential © GeneGo Inc.15 Анализ дифференциальной экспрессии
16 Confidential © GeneGo Inc.16 Код для вышеописанной последовательности действий Анализ дифференциальной экспрессии ##5. Perform differential expression analysis ##Create design library(limma) design
17 Confidential © GeneGo Inc.17 Результаты: Запись в файл Анализ дифференциальной экспрессии ##Write ##Convert IDs to Entrez Gene IDs de.genes$ID
18 Confidential © GeneGo Inc.18 Задача: исследовать структуру массива данных, выявить группы схожих генов/образцов Иерархическая кластеризация Кластеризация ##6. Clustering. affy.dist
19 Confidential © GeneGo Inc.19 Задача: исследовать структуру массива данных, выявить группы схожих генов/образцов Principal Component Analysis (PCA) Кластеризация ##PCA affy.pca
20 Confidential © GeneGo Inc.20 Packages: beadarray, lumi Достаточно простая последовательность действий, если данные представлены в «родном» формате BeadStudio Загрузка данных Illumina ##Import Illumina data library(lumi) illumina.file
21 Confidential © GeneGo Inc.21 Суть: для каждого зонда посчитать общий относительный сигнал и выделить участки с последовательными координированными изменениями экспрессии Препроцессинг aCGH и SNP-чипов: crlmm, oligo, DNAcopy, aroma.affymetrix, snpChip Сегментация: DNAcopy, BioHMM, RankCopy Обработка данных по copy number variation
22 Confidential © GeneGo Inc.22 Работа с данными next-gen sequencing – Biostrings, ShortRead, BSGenome – chipseq (анализ данных ChIP-Seq) – Genominator, Deseq (анализ данных RNA-Seq) Загрузка данных и метаданных из баз NCBI через R – GEOMetadb, GEOquery (GEO – микрочипы, RNA-seq) – SRAdb (NCBI Sequence Reads Archive - секвенирование) Аннотация – GOstats, biomaRt, microarray annotation packages ( hgu95a ) Интерфейс UCSC Genome Browser – rtracklayer Анализ биологических сетей – BioNet, RCytoscape Дополнительные возможности BioC
23 Confidential © GeneGo Inc.23 Взаимодействие с другими языками программирования – rJava; – rcpp 4 Взаимодействие с базами данных – ROracle, RSQLite… ; Параллелизация – R/parallel; multicore Работа с большими массивами данных – – Bigmemory, biglm Дополнительные возможности R
24 Confidential © GeneGo Inc.24 Introduction to R by Longhow Lam Quick-R, сборник материалов по применению статистических методов в Rhttp:// Обучающие материалы по R
25 Confidential © GeneGo Inc.25 IDE –Emacs + ESS ( –Eclipse plugin ( Текстовые редакторы –Tinn-R ( –Notepad++ ( Во всех этих программах –Подсветка синтаксиса R –Запуск кода в консоль R Редакторы для R
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.