АЛГОРИТМ ДЛЯ ИДЕНТИФИКАЦИИ АЛЛЕЛЬНЫХ ПАТТЕРНОВ. Полигенные заболевания Восприимчивость к полигенным заболеваниям определяется вкладом нескольких генов.

Презентация:



Advertisements
Похожие презентации
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Advertisements

Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Лекция 12 РАЗЛИЧЕНИЕ СИГНАЛОВ МНОГОАЛЬТЕРНАТИВНЫЕ ЗАДАЧИ ВЫБОРА РЕШЕНИЯ.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Теория вероятностей и математическая статистика Лекция 1. Введение. Основные понятия теории вероятностей. Элементы комбинаторики.
7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 4. Проверка статистических гипотез 4-1. Гипотеза о доле признака 4-2. Гипотеза.
ЛЕКЦИЯ Множества Элементы логики. М НОЖЕСТВА П ОНЯТИЕ МНОЖЕСТВА Понятие множества используют для описания совокупности некоторых предметов или объектов,
Наивный байесовский классификатор к.х.н. Варламова Екатерина Владимировна.
Теория статистики Описательная статистика и получение статистических выводов Часть 2. 1.
Результаты моделирования триангуляционного способа определения дальности с применением двух и трёх станций ОАО «Центральное конструкторское бюро автоматики»,
1 Описательная статистика. 2 Основные понятия Переменная = одна характеристика объекта или события Количественные: возраст, ежегодный доход Качественные:
Урок 1 - раздел генетики, занимающийся изучением закономерностей наследования признаков, генетической структуры и динамики популяций.
Проверка статистических гипотез Основные понятия и терминология Что такое статистическая гипотеза? Лекция 6.
Вы активировали гиперссылку для рассмотрения математического моделирования игры в теннис.
1 Основы надежности ЛА Надежность сложных систем.
Обработка и представление результатов измерений. Оценка случайной погрешности измерений Полученные при непосредственном измерении величины неизбежно содержат.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
Теория графов Основные определения. Задание графов Графический способ – Привести пример графического задания графа, состоящего из вершин А, В и С, связанных.
Транксрипт:

АЛГОРИТМ ДЛЯ ИДЕНТИФИКАЦИИ АЛЛЕЛЬНЫХ ПАТТЕРНОВ

Полигенные заболевания Восприимчивость к полигенным заболеваниям определяется вкладом нескольких генов. Гены могут влиять аддитивно (независимо) или взаимодействовать между собой или по отношению к заболеванию. Гетерогенность: различные наборы мутаций приводят к одному и тому же заболеванию. Уровень заболевания коррелирован с генетической картиной, а не определяется ей. Всё сказанное может быть отнесено к любому полигенному фенотипическому признаку.

Пример паттернa: распознавание образов (1,0)(1,1/2)(1/2,1/2) (1,1)(1/2,1)(0,1)

Аллельный (генетический) паттерн Мы знаем уровни некоторого фенотипического признака у некоторой группы особей и аллели генов-кандидатов для этих особей. Паттерн – это непустое множество аллелей этих генов, присутствие которого в геноме ассоциировано с признаком. Любое подмножество паттерна ассоциировано с признаком слабее, чем сам паттерн. То есть, паттерн – это локально минимальный набор аллелей, ассоциированный с признаком. Паттерн может состоять только из одного аллеля.

OR 20.1 p

Независимость Несколько паттернов, одновременно ассоциированных с заболеванием, могутпрятать друг друга. При ненулевом пересечении появление паттернов в геноме не независимо. Более сильный паттерн может затенять более слабый. Мы не можем использовать разделение компонент, поскольку паттерны не образуют линейного пространства, например, не всегда определено сложение.

Изоляция от влияния других паттернов Мы рассматриваем влияние носительства паттерна изолированно, то есть устранив из рассмотрения влияние остальных паттернов из набора. Наборы паттернов Поскольку мы не можем искать паттерны по отдельности, приходится искать их одновременно.

Задача Нам известны генотипы и уровень фенотипического признака для набора особей. Уровни признака – сравнительные характеристики. Смысл имеет только их относительные величины, а не абсолютные. Мы хотим получить набор аллельных паттернов, который наилучшим образом характеризует связь генотипа и фенотипа. Мы ищем набор паттернов, такой, чтобы максимизировать вероятность того, что каждый из них изолированно ассоциирован с фенотипическим признаком.

Набор паттернов – параметр оптимизации Структуры данных Уровень Матрица Аллели генов признака включения a c | d d | f s | c f | a b | b a | a a | c b | a c | c f | f b | b s | a f | a d | b c |.... … Соответствие двух матриц- мера качества набора паттернов. Набор паттернов 0 0 | d 0 | 0 0 | | a 0 | 0 0 | f | 0 0 | b 0 |....

Классификация по включению Матрица включения Все геномы клас- сифицируются в 2 n классов по содержимому строки в матрице включения Классы можно представить себе вершинами гиперкуба, при этом каждое направление рёбер соответствует одному паттерну.

Сравнение пары классов Мы можем сравнивать только уровни заболевания (признака), и для характеристики сравнения пары классов нам подходит статистика числа инверсий. Инверсией называется ситуация, когда уровень болезни (признака) особи из класса х ниже, чем особи из класса y x y Два класса, находящиеся на одном ребре гиперкуба, отли- чаются носительством только одного паттерна и различие уровней заболевания в них определяется изолированным влиянием этого паттерна. Поэтому характеристику набора паттернов мы будем строить из таких атомарных сравнений двух классов.

Пара классов: альтернативные гипотезы Для каждой пары классов, сформулируем 3 альтернативные гипотезы. нулевая: два класса – это исходы розыгрышей из распределений с одинаковыми медианами; положительная – вторая медиана больше (положительный паттерн) отрицательная – первая медиана больше (отрицательный паттерн) Мы сравниваем эти гипотезы с помощью формулы условной вероятности Баейса.

Распределение Вилкоксона Распределение Вилкоксона (Wilcoxon) для g=2 и h=4. Число различных последовательностей N P 1/15

Апостериорная вероятность нулевой гипотезы для паттерна Если паттерн содержится во всех геномах или ни в одном (неинформативный паттерн), то априорная вероятность нулевой гипотезы для этого паттерна равна 1. Правдоподобие данных для паттерна – это произведение правдоподобий результатов сравнений во всех его парах классов.

Качество набора паттернов Все попарные сравнения классов, отличающихся на один паттерн, вместе определяют качество паттерна. Все паттерны вместе определяют качество набора паттернов. Хороший набор паттернов не содержит плохих паттернов это качество набора паттернов.

Поиск наилучшего набора паттернов Полное перечисление неэффективно. Градиентные алгоритмы не отличают локального максимума от глобального. Использовался метод Монте-Карло Марковскими цепями (MCMC).

Монте-Карло Марковскими цепями МСМС используется для исследования возможных решений. Мы не можем напрямую решить задачу, мы можем только оценить относительную вероятность различных возможных решений.

Шаг MCMC Шаг цепи MCMC, улучшающий f (x), всегда принимается. Шаг, ухудшающий f (x), принимается с вероятностью f (start)/f (finish). Множество исходов такой цепи распределено по f(x) Серия последовательно разыгрываемых точек, таких, что распределение каждой их них зависит только от предыдущей, составляет Марковскую цепь первого порядка. f (x)f (x) x

Приложения метода к реальным медицинским исследованиям Была разработана программа APSampler. Favorov AV, Andreewski TV, Sudomoina MA, Favorova OO, Parmigiani G, Ochs MF A Markov Chain Monte Carlo Technique for Identification of Combinations of Allelic Variants Underlying Complex Diseases. Genetics 171(4): Примеры приложений: Исследование по методу случай-контроль генетической картины рассеянного склероза (РС) в русской популяции. Анализ генетических причин гипертензии у перенесших ишемический инсульт (ИИ) пациентов якутского происхождения. Анализ аллелей и псевдоаллелей, влияющих на рак молочной железы (РМЖ) в русской популяции.

DRB1*15(2) TNFa9 CCR DRB1*04 TGF 1-509*C + DRB1* CTLA4*G (trio 1) -238 TNF*B TNF*A CTLA4*G (trio 2) При анализе 15 локусов для 237 больных РС и 358 здоровых контролей APSampler нашёл паттерны:

4-х польный тест Фишера для троек и входящих в них двоек Combinations Patients, N (%) Controls, N (%) p Value –509TGFβ1*C,DRB1*18(3),CTLA4*G (trio 1) 5 (5)0 (0)0.009 –509TGFβ1*C,DRB1*18(3) 5 (5)2 (1)0.114 –509TGFβ1*C,CTLA4*G 60 (61)88 (57)0.603 DRB1*18(3),CTLA4*G 5 (5)1 (1)0.035 –238TNF*B1,–308TNF*A2,CTLA4*G (trio 2) 11 (9)0 (0)0.003 –238TNF*B1,–308TNF*A2 13 (10)4 (5)0.198 –238TNF*B1,CTLA4*G 38 (30)15 (17)0.037 –308TNF*A2,CTLA4*G 23 (18)13 (15)0.580

Трёхаллельный паттерн был найден как ассоциированый с гипертонией у перенесших ИИ якутов (анализ по 7 локусам). Частота носительства сочетания трёх аллелей в группе с нормальным давлением, (0), со слабой (1), умеренной (2) и сильной (3) гипертонией.

Анализ ассоциации генотипов SULT1A1 и UGT1A1 с риском и фенотипом РМЖ методом MCMC, использующим непараметрическое многомерное сравнение фенотипического признака, с применением алгоритма APSampler

Русские больные РМЖ: достоверные различия в ассоциации генотипов SULT1A1 и UGT1A1 с риском и фенотипом, выявленные алгоритмом APSampler - У больных РМЖ, по сравнению с контролями, чаще встречаются носители аллеля UGT1A1*28 (р*=0.003; ОР=2.31), особенно в сочетании c возрастом начала заболевания 52 лет (р*=0.0002; ОР=0.37). - Выявлена позитивная связь с размером опухоли >2 см носительства аллеля UGT1A1*28 (р=0.026; ОР=2.71) и генотипа UGT1A1*1/*28 (р*=0.0006; ОР=4.17). - Негативная связь с размером опухоли >2 см выявлена у носителей генотипа UGT1A1*1/*1 (р*=0.0038; ОР=0.36), причем она более выражена у тех больных, для которых не известны случаи РМЖ в семье (р*=0.0018; ОР=0.23). * - по критерию Фишера

Authors Alexander Favorov 1 Timofey Andreewski 2 Marina Sudomoina 2 Olga Favorova 2 Giovanni Parmigiani 3 Michael Ochs 4 1.State Scientific Centre GosNIIGenetica, Moscow, Russia. 2.Russian State Medical University, Moscow, Russia. 3.Johns Hopkins University, Baltimore, MD, USA 4.Fox Chase Cancer Center, Philadelphia, PA, USA. 5.Yakut Research Center, Russian Academy of Medical Sciences and Government of the Sakha Republic (Yakutia), Yakutsk 6.Institute of Information Transmission Problems RAS, Moscow, Russia Acknowledgements Alexey Alexeenkov 2 Alexey Boiko 2 Evgeniy Gusev 2 Alexey Boiko 2 Mikhail Parfenov 2 Tatiana Nikolaeva 5 Mikhail Gelfand 6 Vsevolod Makeev 1 Thank your for your attention.

null - + const inv# 8 0 p 0.25 Правдоподобия гипотез. Пример. Чем населёнее меньший из двух классов, тем сильнее зависимости от числа инверсий. Когда он равен 0 или 1, все 4 линии совпадают.

Мутация: 0 0 | d 0 | | a 0 | f | 0 0 | b | d 0 | | a 0 | f | c 0 | b 0 Шаги изменения набора паттернов Рекомбинация: 0 0 | d 0 | | a 0 | f | 0 0 | b | d 0 | | a 0 | b 0 0 f | 0 0 | 0 0

Analysis of genetic background of hypertension in ishemic stroke (IS) patients of Yakut descent 116 IS patients were classified into 4 groups: with normal blood pressure, with mild, moderate and severe hypertension 7 loci were analyzed