Автоматическая аннотация геномов Ирена Артамонова Алма-Ата, апрель 2006
Необходимость автоматической аннотации Технологии секвенирования => лавина данных;>осознания механизмов функционирования Рабочая единица живого – белок. Его функция??? Сколько мы знаем из того, что хотим знать:
План Наиболее распространенные примеры аннотационных систем Принципы автоматического определения структуры белков Автоматическая аннотация функции белков: –Перенесение функции по гомологии –Предсказание функции ab initio Оценки достоверности автоматической аннотации Автоматическая детекция ошибок аннотации
Примеры наиболее популярных систем аннотации геномов e ! Ensembl ( Genome Browser ( PEDANT ( )
Genome Browser (UCSC) 32 генома (из них - 13 позвоночных, 13 насекомых) Огромная коллекция данных (экспериментальных), спроецированных на геном Возможность настройки интерфейса Визуализация собственных данных наравне с интегрированными в систему Использование общепринятых идентификаторов (GenBank, RefSeq)
Genome Browser: user-friendly интерфейс
Ensembl Геномы – 25 (из них - 12 млекопитающих; цель - позвоночные) Собственная система идентификаторов В последних релизах добавлены системы соответствия внутренних идентификаторов идентификаторов и общепринятых (поиск – по внутренним) DAS (Distribution annotation system) – новая технология интеграции данных
Основные принципы DAS A server system for the sharing of Reference Sequences, a system conceptually composed of a Reference Server and Annotation Server(s)
PEDANT Геномы: 334, из них 10 – вручную Новая версия – удобный интерфейс Вся информация вычислена на месте (интеграция программ) Собственная иерархическая система функциональной классификации (FunCat)
MIPS Functional Catalog Hierarchical structure (up to 6 levels in deep), e.g.: 10 CELLULAR COMMUNICATION/SIGNAL TRANSDUCTION MECHANISM intracellular signalling enzyme mediated signal transduction G-protein mediated signal transduction small GTPase mediated signal transduction 28 main groups, such as METABOLISM, ENERGY, CELL CYCLE AND DNA PROCESSING, TRANSCRIPTION, PROTEIN SYNTHESIS, etc.; in total 1307 different categories Protein can simultaneously belong to several categories; some categories are correlated and some are not correlated
PEDANT 3
Функциональная аннотация белков Перенос функции по гомологии: попарное выравнивание PSI-BLAST кластеризация пространства белков, приписывание функции целому кластеру (функциональный консенсус) построение ортологичных рядов приписывание функции отдельным доменам, вместо всего белка
Пространственная структура белка: предсказание функциональных доменов InterPro – комбинированный ресурс, объединяющий наиболее полные доменные классификации
Избыточность информации, интегрированной в InterPro Мы упорядочили методы в порядке убывания покрытия и по одному добавляли, анализируя общее покрытие отработанных методов и общее вычислительное время.
Основные ограничения перенесения функции по гомологии Порог на уровень сходства сильно зависит от функции Для весьма заметного количества белков нет аннотированных гомологов Возможные ошибки аннотации экспоненциально распространяются
Оценки достоверности перенесения функции по гомологии (EC) 70%: детальное описание (четвертый уровень) (Devos & Valencia, 2000) 30% ошибок в четвертом уровне,
Автоматическое определение функции: предсказание клеточной локализации Идентификация сигнальных пептидов (распознавание мотивов в последовательности – нейронные сети) – 80% (70% - точность предсказание стартового кодона) Определение внутренних сигналов клеточной локализации (напр., сигнал ядерной локализации) – 100% (неизвестные мотивы или опосредованная секреция - ?) Аминокислотный состав зависит от клеточной локализации Филогенетический профайлинг Комбинация методов
Посттрансляционные модификации: принципы и методы Определение консервативных мотивов в последовательностях Структурные свойства (более далекие взаимодействия, экспонирование остатков и т.п.) Нейронные сети, натренированные на экспериментальных выборках сигналов и их отсутствия
Посттрансляционные модификации: точность предсказаний Сайты фосфорилирования (Ser/Thr/Tyr - чувствительность – 69-96%) Сайты О-гликозилирования (млекопитающие, НС – аа-состав, доступность, coil/turn участки: 76% гликозилированных и 93% негликозилированных Ser/Thr) N-гликозилирование – 76% в среднем (86% - модифицированные, 61% - немодифицированные Asn-Xaa-Ser/Thr) Позиции ферментативного расщепления (субтилизин/кексин-подобные ферменты) – 62% для всех ферментов, 95% - фурин
Белок-белковые взаимодействия Ортологи взаимодействующей пары Филогенетический профайлинг Соседняя локализация в геноме Потомки комбинированного белка Коэволюция пары – мутации скоррелированы Содержат взаимодействующие домены Различные классификационные методы – SVM, нейронные сети и т.п. – в пространстве физико-химических параметров и элементов структуры
Белок-белковые взаимодействия – методы предсказания функции Два белка функционально связаны, если: взаимодействуют; взаимодействие подтверждено несколькими экспериментами; имеют много общих партнеров; находятся в одном кластере сети (минимизируют количество межкластерных взаимодействий)
Достоверность полногеномной аннотации Экспертные оценки аннотации геномов: 86-96% (Ouzounis et al.,1999) 87% (Galperin & Koonin, 1998) 92% (Brenner, 1999; согласованность при cравнение аннотации генома Mycoplasma genitalium тремя независимыми группами экспертов)
Распределение ошибок аннотации по категориям Оценка достоверности аннотации генома Chlamydia trachomatis (Iliopoulos et al., 2003) Общий уровень достоверной информации – %
Примеры алгоритмов автоматической детекции ошибок аннотации Binary property clustering (Kaplan & Linial, 2005) система Xanthippe (на основе метода простых исключений и алгоритма C4.5 для построения дерева решений) (Wieser et al., 2004) приложение метода ассоциативных правил (положительных и отрицательных)
Кластеризация на основе бинарных свойств Исправляет ошибки, связанные с неверным приписыванием свойств белкам в процессе автоматической аннотации Использует кластеризацию белков, которым приписано исследуемое свойство, на основе следующего расстояния: score(p 1,p 2 ) = - I из (A1 A2) log f(i) На определенном шаге итерационной кластеризации, все белки, к которым верно приписано исследуемое свойство, и только они, образуют кластер
Xanthippe Система дизайнирована для переноса аннотации с белков Swiss-Prot на белки TREMBL 2 части: 1. Выявление свойств, несовместных с рассматриваемым таксоном 2. Построение дерева решений на основе алгоритма C4.5 для выведения ключевых слов из имеющейся структурной и таксономической информации
Дерево решений
Метод ассоциативных правил (A1, A2 …AN, Z) – свойства белков Положительное ассоциативное правило: (A1&A2&…&AN) => Z ( здесь, N 4) или белки, обладающий всеми свойствами A1, …, AN, вероятно обладает и свойством Z Здесь A1, …, An (левая часть правила, или LHS) и Z (правая часть правила, или RHS) – различные белковые свойства Каждое правило характеризуется своим покрытием, количеством белков, обладающих всеми свойствами левой части; своей поддержкой, количеством белков, обладающих всеми свойсвами как левой, так и правой части правила; а также своей силой, то есть отношением поддержки к покрытию, или вероятностью обладать свойством правой части, при условии удовлетворения левой части правила.
Приложение метода к исправлению ошибок аннотации Стратегия: Используя техники метода ассоциативных правил, вычислить все правила для аннотации белков в базе данных Выбрать только правила с силой, близкой к 1 (например, в интервале силы) Возможно, как-либо отфильтровать данное множество правил Выявить белки, составляющие исключения из этих правил Пометить соответствующие правилу комбинации свойств Основная идея: если поддержка правила A & B => C весьма высока и его сила близка к, но не равна, 1, то мы полагаем, что свойства A, B и C биологически зависимы, и исключения из этого правила являются ошибками аннотации
Результаты Общий процент ошибок среди исключений из сильных правил (в интервале силы [0.97;1.0) ): Swiss-Prot % (анализ исправлений в последующих релизах и на основе экспертной проверки) PEDANT – 68.1% (ручная проверка; количествонесовместных комбинаций свойств ~115000) Большинство ошибок: Swiss-Prot – пропуск свойства правой части правила (недоаннотация) PEDANT – неверное приписывание одного ищ свойств левой части правила (переаннотация)
Отрицательные ассоциативные правила Правила формы A & B => не C Например, Bacteria => not Nuclear protein. Отрицательные правила выявляют только проблемы переаннотации (т.к. исключения из этих правил – это белки, в аннотации которых определенную комбинацию свойств мы считаем несовместной) Иная статистика: отрицания свойств, в отличие от самих свойств, очень часты в аннотации (так как из всего разнообразия возможных свойств белков каждый отдельный обладает лишь весьма ограниченным списком свойств). Поэтому количество количество исключений весьма существенно уже для весьма сильных правил и они зачастую не отражают биологических закономерностей.
Отрицательные правила - стратегия Благодаря различию статистики для положительных и отрицательных правил, аналогичный подход не работает Новый подход (PEDANT). Вычислить отрицательные правила на белках, аннотированных очень хорошо, и применить эти правила для всей, в том числе автоматической, аннотации. То есть теперь мы пометим в аннотации те комбинации свойств, которые несовместны с точки зрения полученных правил. Проверка – в 92% случаев эти помеченные комбинации действительно содержат неправильно приписанные свойства.
Благодарности Были использованы преимущественно литературные данные Мои соавторы: Гоар и Дмитрий Фришманы, Михаил Гельфанд The BioSapiens project is funded by the European Commission within its FP6 Programme, under the thematic area "Life sciences, genomics and biotechnology for health contract number LHSG-CT Спасибо всем присутствующим за внимание!