Биоинформатика сложных количественных признаков Цель: Создание методической базы для выяснения генетической природы сложных признаков. Задачи: Разработка.

Презентация:



Advertisements
Похожие презентации
Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 4500 к решению Совета депутатов города Новосибирска от
Advertisements

Применение генетических алгоритмов для генерации числовых последовательностей, описывающих движение, на примере шага вперед человекоподобного робота Ю.К.
Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 6000 Приложение 7 к решению Совета депутатов города Новосибирска.
Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______ Масштаб 1 : 5000.
Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 6000 Приложение 7 к решению Совета депутатов города Новосибирска.

Матемтааки ЕТ СТ 2 класс Шипилова Наталия Викторовна учитель начальных классов, ВКК Шипилова Наталия Викторовна учитель начальных классов, ВКК.
Оценка эффективности деятельности общеобразовательных учреждений по итогам комплектования-2010 Л.Е. Загребова, руководитель Тольяттинского управления министерства.
1. Определить последовательность проезда перекрестка
Приложение 1 к решению Совета депутатов города Новосибирска от Масштаб 1 : 5000.
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
Развивающая викторина для детей "Самый-самый " Муниципальное общеобразовательное учреждение средняя общеобразовательная школа 7 ст. Беломечётской.
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от
Анализ воспитательной работы В ГБС(К)ОУ школе учебный год.
Работу подготовила учитель математики МОУ «СОШ 42» г.Воркуты Курылева Э.Р.

T, °C V, м/с Эквивалентные температуры воздуха в штиль(°С) и скорости ветра (м/с) Опас- ность обморо- жения 02,24,46,68,811,013,316,417,
1 Знаток математики Тренажер Таблица умножения 2 класс Школа 21 века ®м®м.
27 апреля группадисциплина% ДЕ 1МП-12Английский язык57 2МП-34Экономика92 3МП-39Психология и педагогика55 4МП-39Электротехника и электроника82 5П-21Информатика.
ЦИФРЫ ОДИН 11 ДВА 2 ТРИ 3 ЧЕТЫРЕ 4 ПЯТЬ 5 ШЕСТЬ 6.
Транксрипт:

Биоинформатика сложных количественных признаков Цель: Создание методической базы для выяснения генетической природы сложных признаков. Задачи: Разработка новых моделей контроля сложных признаков, новых методов картирования и идентификации контролирующих их генов и использование этих разработок для получения новых знаний о генетической архитектуре сложных признаков человека. Этап I: Параметрический анализ сцепления по родословным неограниченно большого размера (алгоритм и пакет программ)

Генетическая гетерогенность комплексных признаков Ограниченное число мутантных генов Уменьшение вариабельности средовых факторов Одновременный анализ сцепления и ассоциаций Родительский контроль при анализе ассоциаций Разные мутантные гены в разных семьях Одновременный анализ нескольких болезней Расширенные родословные Peltonen et al. Science, :5507,

EUROSPAN (European Special Population Network) project EUROSPAN (European Special Population Network) project 1. Counties of Norrbotten and Västerbotten, Swedish 2. Archipelago of Orkney, Scottish 3. South-western area of the Netherlands 4. Venosta Valley, South Tyrol, Italy 5. villages of Vis and Komiza, Dalmatian island, Croatia Johansson et al. Hum Mol Biol, :

Erasmus Rucphen Family (ERF) study Aulchenko et al, 2007

Пакеты программ для параметрического анализа сцепления: LINKAGE (ftp://linkage.rockefeller.edu/software/linkage) ftp://linkage.rockefeller.edu/software/linkage FASTLINK ( vitesse ( GENEHUNTER-MODSCORE ( marburg.de/~strauchk/software.html) marburg.de/~strauchk/software.htmlhttp:// marburg.de/~strauchk/software.html SAGE ( SIMWALK2 ( Методы рекомбинационного анализа параметрические непараметрические непараметрические

i – pedigree ancestors, j – offspring, k – observed individualsN Running time |G|= sec min min min 15 about 10 days Суммирование по всем возможным комбинациям генотипов у всех членов родословной i – основатели родословной, j – потомки, k – обследованные особи Время вычисления пропорционально числу суммирований Функция правдоподобия произвольной родословной

Алгоритмы вычисления функции правдоподобия ФакторВремясчета Lander-GreenElston-Stewart Размер родословнойРастет экспоненциально Растет линейно Число генотиповРастет линейноРастет экспоненциально Число петельНе меняетсяРастет экспоненциально Анализируемые структуры Малые родословные произвольной структуры (до 30 человек), много локусов Большие родословные без петель, несколько локусов

Процедура свертки: Алгоритм Эльстона-Стьюарта

Множественные петли Время вычислений Сверхмалые величины (машинный ноль) Модель наследования количественного признака Проблемы реализации алгоритма Эльстона-Стьюарта

Проблема множественных петель Решение: 1. Аппроксимация функции правдоподобия родословной с петлями точной функцией правдоподобия родословной с разорванными петлями при условии информации о дублированных членах родословной (Stricker, C., Fernando, R.L. & Elston, R.C. (1996) An algorithm to approximate the likelihood for pedigree data with loops by cutting. Theor Appl Genet, 91, ) 2. Алгоритм оптимального разрыва петель (Axenovich, T.I., Zorkoltseva, I.V., Liu, F., Kirichenko, A.V. & Aulchenko, Y.S. (2008) Breaking loops in large complex pedigrees. Hum Hered, 65, 57-65) LH 0 = LH 1 /LH(k) k k

Решение: 1. Свертка ядерных родословных 2. Оптимизация порядка сверток (Belonogova, N.M. & Axenovich, T.I. (2007) Optimal peeling order for pedigrees with incomplete genotypic information. Comput Biol Chem, 31, 173-7) 3. Элиминация невероятных генотипов (O'Connell, J.R. & Weeks, D.E. (1999) An optimal algorithm for automatic genotype elimination. Am J Hum Genet, 65(6), ) Уменьшение времени вычислений

Процедура свертки Уменьшение времени вычислений

две стандартные процедуры свертки -на родителя -на потомка объем памяти ~|N||G| возможность оптимизации порядка сверток Размер родословной Число обследованных Число генотипов321 Время0.008 sec6 sec Процедура свертки Уменьшение времени вычислений

Peeling NP on a parent Peeling NP on one of the offspring Running time Оптимизация порядка сверток Уменьшение времени вычислений

Оптимизация порядка сверток Уменьшение времени вычислений

Pedigree (N) MaximumMean±S.E.Minimum (optimal) Ratio mean/optimal Human (114) 6.76 x ± 0.09 x x Silver fox (1845) 1.34 x ± x x Polar fox (952) 2.66 x ± 0.23 x x Вычислительная сложность при разном порядке сверток Уменьшение времени вычислений

Проблема: log(Z) Если и 0 z i 1, то Z0 при увеличении N N Z i =0.5 Z i =0.75 Z i =0.9 Решение: Пусть F>1 и y i =Fz i, тогда Z=y i /F N или lnZ=ln(y i )- N lnF. Проблема машинного нуля

Lets define the factor where P(X i (s) |g i ) is the result of peeling s on individual i. Lets introduce r(X i (s) |g i )= P(X i (s) |g i )/F (s) so that r(X i (s) |g i )= 1. Then Проблема машинного нуля

неограниченный размер родословной уменьшение объема памяти (отказ от double precision) Размер родословной Число обследованных Число сверток LH ln LH Проблема машинного нуля

Модель наследования количественного признака Смешанная модель : x = g + G + e g – майоргенный эффект [g: QQ, Qq или qq] G – полигенный эффект [N(0, σ 2 G )] e – средовой эффект [N(0, σ 2 e )]

Конечная аппроксимация полигенного эффекта (Fernando, R.L., Stricker, C. & Elston, R.C. (1994) The finite polygenic mixed model: an alternative formulation for the mixed model of inheritance. Theor Appl Genet, 88, ) n диаллельных локусов (аллели 0 и 1), эффект пропорционален числу единичных аллелей во всех локусах k (G = dk) Гипергеометрическая аппроксимация распределения единичных аллелей у потомка ( Lange, K. (1997) An approximate model of polygenic inheritance. Genetics, 147, ) C k k1+k2 C 2n-k 4n-k1-k2 / C 2n 4n, где k1 и k2 – числа единичных аллелей у родителей Модель наследования количественного признака

Параметры модели: p – частота аллеля Q, QQ, Qq, qq – генотипические средние, ρ – эффект единичного аллеля полигена, σ 2 e – средовая дисперсия Число генотипов: 21 = 3(майорген) × 7(полиген) Функция правдоподобия при анализе сцепления: n n n = 10 для двуточечного анализа сцепления, n = 55 для трехточечного анализа сцепления

Пакет программ MQscore_SNP 1. Подготовка данных: a) Проверка структуры родословной и упорядоченная нумерация [recode_ped_2006.pl ( b) Оптимальный порядок сверток и информационные массивы [ pedpeel_2006_4.pl( с) Упорядоченные массивы признаков и маркерных генотипов

Пакет программ MQscore_SNP ] 2. Анализ сцепления [ MQscore_SNP ( : a) MQscore_2point – двуточечный анализ сцепления, b) MQscore_2point_max – двуточечный анализ сцепления с максимизацией параметров модели, с) MQscore_3point – трехточечный анализ сцепления

Пакет программ MQscore_SNP 3. Время счета: Размер родословной 5822, число генотипированных 2480, число маркеров 5250, процессор Pentium D 3ГГц a) MQscore_2point – двуточечный анализ сцепления, 0.31 мин на 1 маркер, 27 часов на геном, b) MQscore_2point_max – двуточечный анализ сцепления с максимизацией параметров модели, 8.28 мин на 1 маркер, 30 дней на геном с) MQscore_3point – трехточечный анализ сцепления мин на пару маркеров, 52 дня на геном

Пакет программ MQscore_SNP 4. Стратегия анализа: Сегрегационный анализ (оценка параметров модели) 2. Двуточечный анализ сцепления (идентификация маркеров с LOD score > 1.5) 3. Двуточечный анализ маркеров с LOD score > 1.5 с максимизацией параметров (уточнение LOD score) 4. Трехточечный анализ сцепления в хромосомах с LOD score > 1.5 ) (QTL между соседними маркерами)

Идентификация и картирование генов роста человека The locus 16q24 showing the strongest linkage signal between markers rs and rs was not mapped earlier as region contributing to normal variation of human height. We studied association in regions 80 – 90 Mb on chromosome 16 around significant linkage peak using additional SNPs. Nineteen markers in this region demonstrated FDR q-values less than Seventeen of them were located between 81,882 and 81,967 kbp. This signal is located within the CDH13 (cadherin 13) gene (81,218, ,387,702 bp). For one of SNPs, rs , having minimal p-value = 4.3x10-5 and q-value = 0.026, we estimated genotyping means. Mean height for AA, AG and GG genotypes of this marker was estimated as , and cm. The proportion of the total trait variance explained by genotypes of rs was estimated as Lod Score COL9A2 NRXN CDH13 Chr 1 Chr 2 Chr 16

Благодарю за внимание