Автоматическая аннотация геномов Ирена Артамонова Алма-Ата, апрель 2006.

Презентация:



Advertisements
Похожие презентации
Анализ белковой последовательности Анализ только аминокислотную последовательность (первичную структуру) белка без боковых цепей. Предсказание физико-химических.
Advertisements

6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Моделирование поведения взаимодействующих агентов в среде с ограничениями Юданов А.А., студент 525 гр. Научный руководитель: к.ф.-м.н. Бордаченкова Е.А.
Семейства белков Паттерны и профили I курс, весна 2009, О.Н. Занегина.
Молекулярный филогенез. ancestor descendant 1 descendant 2 Предположение: жизнь - монофилетична Любые два организма имеют общего предка в прошлом.
Биоинформатика Область науки, в которой решаются биологические задачи с помощью вычислительных методов математики и информационных технологий.
Быстрые пути эволюции белков. Домен. БД PFAM, InterPro. Четвертый семестр, занятие 6, 2010, А.Б.Рахманинова.
Структура курсов информатики и биоинформатики. Банки данных Архивные (примеры: PDB, GenBank) за содержание каждой записи отвечает её автор-экспериментатор.
Биоинформатика Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную.
НазваниеОписание ОбъектПример, шаблон, наблюдение АтрибутПризнак, независимая переменная, свойство Метка класса Зависимая переменная, целевая переменная,
Лекция 8 Временные ряды в эконометрических исследованиях.
Выравнивание … … последовательностей белков и его биологический смысл.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
Александров А.Г ИТО Методы теории планирования экспериментов 2. Стратегическое планирование машинных экспериментов с моделями систем 3. Тактическое.
Теория вычислительных процессов 4 курс, 8 семестр Преподаватель: Веретельникова Евгения Леонидовна 1.
Анализ данных Кластеризация. План лекции Модельные алгоритмы (пример: EM) Концептуальные алгоритмы (пример: COBWEB) Цель: Знакомство с основными алгоритмами.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Ген-ориентированные базы данных и геномные браузеры Что такое ген-ориентированные базы данных? Самые простые примеры таких БД Примеры геном-ориентированных.
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
Swiss-Prot – одна из первых баз данных белковых последовательностей, gold standard белковой аннотации. Аннотация выполнена вручную группой профессиональных.
Транксрипт:

Автоматическая аннотация геномов Ирена Артамонова Алма-Ата, апрель 2006

Необходимость автоматической аннотации Технологии секвенирования => лавина данных;>осознания механизмов функционирования Рабочая единица живого – белок. Его функция??? Сколько мы знаем из того, что хотим знать:

План Наиболее распространенные примеры аннотационных систем Принципы автоматического определения структуры белков Автоматическая аннотация функции белков: –Перенесение функции по гомологии –Предсказание функции ab initio Оценки достоверности автоматической аннотации Автоматическая детекция ошибок аннотации

Примеры наиболее популярных систем аннотации геномов e ! Ensembl ( Genome Browser ( PEDANT ( )

Genome Browser (UCSC) 32 генома (из них - 13 позвоночных, 13 насекомых) Огромная коллекция данных (экспериментальных), спроецированных на геном Возможность настройки интерфейса Визуализация собственных данных наравне с интегрированными в систему Использование общепринятых идентификаторов (GenBank, RefSeq)

Genome Browser: user-friendly интерфейс

Ensembl Геномы – 25 (из них - 12 млекопитающих; цель - позвоночные) Собственная система идентификаторов В последних релизах добавлены системы соответствия внутренних идентификаторов идентификаторов и общепринятых (поиск – по внутренним) DAS (Distribution annotation system) – новая технология интеграции данных

Основные принципы DAS A server system for the sharing of Reference Sequences, a system conceptually composed of a Reference Server and Annotation Server(s)

PEDANT Геномы: 334, из них 10 – вручную Новая версия – удобный интерфейс Вся информация вычислена на месте (интеграция программ) Собственная иерархическая система функциональной классификации (FunCat)

MIPS Functional Catalog Hierarchical structure (up to 6 levels in deep), e.g.: 10 CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM intracellular signalling enzyme mediated signal transduction G-protein mediated signal transduction small GTPase mediated signal transduction 28 main groups, such as METABOLISM, ENERGY, CELL CYCLE AND DNA PROCESSING, TRANSCRIPTION, PROTEIN SYNTHESIS, etc.; in total 1307 different categories Protein can simultaneously belong to several categories; some categories are correlated and some are not correlated

PEDANT 3

Функциональная аннотация белков Перенос функции по гомологии: попарное выравнивание PSI-BLAST кластеризация пространства белков, приписывание функции целому кластеру (функциональный консенсус) построение ортологичных рядов приписывание функции отдельным доменам, вместо всего белка

Пространственная структура белка: предсказание функциональных доменов InterPro – комбинированный ресурс, объединяющий наиболее полные доменные классификации

Избыточность информации, интегрированной в InterPro Мы упорядочили методы в порядке убывания покрытия и по одному добавляли, анализируя общее покрытие отработанных методов и общее вычислительное время.

Основные ограничения перенесения функции по гомологии Порог на уровень сходства сильно зависит от функции Для весьма заметного количества белков нет аннотированных гомологов Возможные ошибки аннотации экспоненциально распространяются

Оценки достоверности перенесения функции по гомологии (EC) 70%: детальное описание (четвертый уровень) (Devos & Valencia, 2000) 30% ошибок в четвертом уровне,

Автоматическое определение функции: предсказание клеточной локализации Идентификация сигнальных пептидов (распознавание мотивов в последовательности – нейронные сети) – 80% (70% - точность предсказание стартового кодона) Определение внутренних сигналов клеточной локализации (напр., сигнал ядерной локализации) – 100% (неизвестные мотивы или опосредованная секреция - ?) Аминокислотный состав зависит от клеточной локализации Филогенетический профайлинг Комбинация методов

Посттрансляционные модификации: принципы и методы Определение консервативных мотивов в последовательностях Структурные свойства (более далекие взаимодействия, экспонирование остатков и т.п.) Нейронные сети, натренированные на экспериментальных выборках сигналов и их отсутствия

Посттрансляционные модификации: точность предсказаний Сайты фосфорилирования (Ser/Thr/Tyr - чувствительность – 69-96%) Сайты О-гликозилирования (млекопитающие, НС – аа-состав, доступность, coil/turn участки: 76% гликозилированных и 93% негликозилированных Ser/Thr) N-гликозилирование – 76% в среднем (86% - модифицированные, 61% - немодифицированные Asn-Xaa-Ser/Thr) Позиции ферментативного расщепления (субтилизин/кексин-подобные ферменты) – 62% для всех ферментов, 95% - фурин

Белок-белковые взаимодействия Ортологи взаимодействующей пары Филогенетический профайлинг Соседняя локализация в геноме Потомки комбинированного белка Коэволюция пары – мутации скоррелированы Содержат взаимодействующие домены Различные классификационные методы – SVM, нейронные сети и т.п. – в пространстве физико-химических параметров и элементов структуры

Белок-белковые взаимодействия – методы предсказания функции Два белка функционально связаны, если: взаимодействуют; взаимодействие подтверждено несколькими экспериментами; имеют много общих партнеров; находятся в одном кластере сети (минимизируют количество межкластерных взаимодействий)

Достоверность полногеномной аннотации Экспертные оценки аннотации геномов: 86-96% (Ouzounis et al.,1999) 87% (Galperin & Koonin, 1998) 92% (Brenner, 1999; согласованность при cравнение аннотации генома Mycoplasma genitalium тремя независимыми группами экспертов)

Распределение ошибок аннотации по категориям Оценка достоверности аннотации генома Chlamydia trachomatis (Iliopoulos et al., 2003) Общий уровень достоверной информации – %

Примеры алгоритмов автоматической детекции ошибок аннотации Binary property clustering (Kaplan & Linial, 2005) система Xanthippe (на основе метода простых исключений и алгоритма C4.5 для построения дерева решений) (Wieser et al., 2004) приложение метода ассоциативных правил (положительных и отрицательных)

Кластеризация на основе бинарных свойств Исправляет ошибки, связанные с неверным приписыванием свойств белкам в процессе автоматической аннотации Использует кластеризацию белков, которым приписано исследуемое свойство, на основе следующего расстояния: score(p 1,p 2 ) = - I из (A1 A2) log f(i) На определенном шаге итерационной кластеризации, все белки, к которым верно приписано исследуемое свойство, и только они, образуют кластер

Xanthippe Система дизайнирована для переноса аннотации с белков Swiss-Prot на белки TREMBL 2 части: 1. Выявление свойств, несовместных с рассматриваемым таксоном 2. Построение дерева решений на основе алгоритма C4.5 для выведения ключевых слов из имеющейся структурной и таксономической информации

Дерево решений

Метод ассоциативных правил (A1, A2 …AN, Z) – свойства белков Положительное ассоциативное правило: (A1&A2&…&AN) => Z ( здесь, N 4) или белки, обладающий всеми свойствами A1, …, AN, вероятно обладает и свойством Z Здесь A1, …, An (левая часть правила, или LHS) и Z (правая часть правила, или RHS) – различные белковые свойства Каждое правило характеризуется своим покрытием, количеством белков, обладающих всеми свойствами левой части; своей поддержкой, количеством белков, обладающих всеми свойсвами как левой, так и правой части правила; а также своей силой, то есть отношением поддержки к покрытию, или вероятностью обладать свойством правой части, при условии удовлетворения левой части правила.

Приложение метода к исправлению ошибок аннотации Стратегия: Используя техники метода ассоциативных правил, вычислить все правила для аннотации белков в базе данных Выбрать только правила с силой, близкой к 1 (например, в интервале силы) Возможно, как-либо отфильтровать данное множество правил Выявить белки, составляющие исключения из этих правил Пометить соответствующие правилу комбинации свойств Основная идея: если поддержка правила A & B => C весьма высока и его сила близка к, но не равна, 1, то мы полагаем, что свойства A, B и C биологически зависимы, и исключения из этого правила являются ошибками аннотации

Результаты Общий процент ошибок среди исключений из сильных правил (в интервале силы [0.97;1.0) ): Swiss-Prot % (анализ исправлений в последующих релизах и на основе экспертной проверки) PEDANT – 68.1% (ручная проверка; количествонесовместных комбинаций свойств ~115000) Большинство ошибок: Swiss-Prot – пропуск свойства правой части правила (недоаннотация) PEDANT – неверное приписывание одного ищ свойств левой части правила (переаннотация)

Отрицательные ассоциативные правила Правила формы A & B => не C Например, Bacteria => not Nuclear protein. Отрицательные правила выявляют только проблемы переаннотации (т.к. исключения из этих правил – это белки, в аннотации которых определенную комбинацию свойств мы считаем несовместной) Иная статистика: отрицания свойств, в отличие от самих свойств, очень часты в аннотации (так как из всего разнообразия возможных свойств белков каждый отдельный обладает лишь весьма ограниченным списком свойств). Поэтому количество количество исключений весьма существенно уже для весьма сильных правил и они зачастую не отражают биологических закономерностей.

Отрицательные правила - стратегия Благодаря различию статистики для положительных и отрицательных правил, аналогичный подход не работает Новый подход (PEDANT). Вычислить отрицательные правила на белках, аннотированных очень хорошо, и применить эти правила для всей, в том числе автоматической, аннотации. То есть теперь мы пометим в аннотации те комбинации свойств, которые несовместны с точки зрения полученных правил. Проверка – в 92% случаев эти помеченные комбинации действительно содержат неправильно приписанные свойства.

Благодарности Были использованы преимущественно литературные данные Мои соавторы: Гоар и Дмитрий Фришманы, Михаил Гельфанд The BioSapiens project is funded by the European Commission within its FP6 Programme, under the thematic area "Life sciences, genomics and biotechnology for health contract number LHSG-CT Спасибо всем присутствующим за внимание!