ОНТОЛОГИИ В БИОИНФОРМАТИКЕ Подколодный Н.Л. ИВМиМГ СО РАН ИЦиГ СО РАН.

Презентация:



Advertisements
Похожие презентации
Комплексный подход для формального описания, графического представления и моделирования широкого круга биологических и других сложных систем Biosoft.Ru.
Advertisements

Молекулярный филогенез. ancestor descendant 1 descendant 2 Предположение: жизнь - монофилетична Любые два организма имеют общего предка в прошлом.
Современные направления интеллектуализации глобальной сети Интернет Сорокин Арсений Николаевич Вологда, 2008.
Новые направления биомедицинских исследований Omics Докладчик: Татьяна Гребышева МБФ, гр Совместное заседание студенческого научного кружка кафедры.
Теория экономических информационных систем Семантические модели данных.
Моделирование как метод познания Моделирование это метод познания, состоящий в создании и исследовании моделей.
Многометодные процедуры оптимального управления Архитектура и реализация программного комплекса Исследовательский Центр процессов управления Работа выполнена.
Обзор некоторых направлений интеграции гетерогенных ресурсов в электронных библиотеках Новицкий А.В. Институт программных систем НАН Украины.
1 Экология питания Москва, Россия. 26 октября, 2010 Юмей Лиин, д.н старший научный сотрудник института оптимального здоровья Нутрилайт (NUTRILITE) Калифорния,
ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОГО СПРАВОЧНИКА ОТРАСЛЕВОГО УРОВНЯ С УЧЕТОМ РЕКОМЕНДАЦИЙ СТАНДАРТА ISO
1 Системный подход в моделировании МОДЕЛИРОВАНИЕ И ФОРМАЛИЗАЦИЯ.
Стандартная запись Swiss-Prot. Стандартные поля: entry, name, origin Название записи, уникальный идентификатор (ID), предыдущие идентификаторы соответствующей.
1 Использование онтологий при создании интеллектуальных систем И.Л. Артемьева Дальневосточный государственный университет.
Кафедра математики, логики и интеллектуальных систем ИЛ РГГУ 1 Система управления базой понятий ЭЗОП Е. М. Бениаминов © Институт лингвистики.
Языки и методы программирования Преподаватель – доцент каф. ИТиМПИ Кузнецова Е.М. Лекция 7.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
СЕТЕВАЯ МОДЕЛЬ ПРЕДСТАВЛЕНИЯ ЗНАНИЙ ЛЕКЦИЯ (С): Доц., к.т.н. Шкаберин В.А. Брянский государственный технический университет Кафедра «Компьютерные технологии.
ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ МОДЕЛИРОВАНИЯ Классификационные признаки моделирования Эффективность моделирования систем.
ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ МОДЕЛИРОВАНИЯ Классификационные признаки моделирования Эффективность моделирования систем.
ВАЖНАЯ БИОЛОГИЯ в ИКТ Выполнила : студентка 2 курса Синельникова Анастасия.
Транксрипт:

ОНТОЛОГИИ В БИОИНФОРМАТИКЕ Подколодный Н.Л. ИВМиМГ СО РАН ИЦиГ СО РАН

Что такое БИОИНФОРМАТИКА? Биоинформатика и вычислительная биология использует методы прикладной математики, статистики, информатики, computer science, искусственного интеллекта, химии и биохимии для решения биологических проблем

Роль биоинформатики в постгеномную эру Биоинформатика 90-х Биоинформатика сейчас Биоинформатика в будущем Первичные базы данных, содержащие данные по геномике и протеомике. Понимание функций и полезности отдельных генов и белков Понимание функций и полезности на уровне молекул, клетки и организма Понимание базовых принципов высшей сложности биосистем Вторичные базы данных (знаний), аккумулирующие биологические знания. Компьютерное представление клетки и организма. Биоинформатика сейчас Биоинформатика в будущем

Высокопроизводительные экспериментальные установки Много данных, много форматов Экспрессия генов, взаимодействия, функция, модификация белков … PubMed Microarray Two-Hybrid Mass Spectrometry Genetics Базы данных Интеграция данных Извлечение знаний Научные публикации

Число баз данных, описанных в журнале Nucleic Acids Res.

Типы баз данных в биоинформатике 1.Архивные базы данных (большая свалка) GeneBank & EMBL – здесь хранятся первичные последовательности PDB – пространственные структуры белков 2. Курируемые базы данных Swiss-Prot – наиболее качественная база данных, содержащая аминокислотные последовательности белков KEGG – информация о метаболизме FlyBase – информация о Drosophila TRRD – база данных о структурно-функциональной организации районов регуляции транскрипции GeneNet – база данных по генным сетям 3. Производные базы данных SCOP – База данных структурной классификации белков (описывается структура белков) PFAM – База данных по семействам белков GO (Gene Ontology) – описание молекулярных структур, их функций и процессов, в которых они участвуют. ProDom – белковые домены AsMamDB – альтернативный сплайсинг у млекопитающих 4. Интегрированные базы данных NCBI Entrez – информация о нуклеотидных и аминокислотных последовательностях и структурах Ecocyc – все о E.coli – гены, белки, метаболизм и пр.

Источник данныхОбъем данныхЗадачи ДНК последовательности30 млн. последовательностей пар оснований Функциональная аннотация Белковые последовательности последовательностей (~300 аминокислот каждая) Сравнительный анализ. Выявление консервативных мотивов Структуры макромолекул50000 структур (~1000 атомных координат каждая) Предсказание, выравнивание, измерение геометрии, докинг Геномы689 прокариоты (+draft 500) 22 эукариоты (+draft 141) Сборка полных геномов Функциональная аннотация Сравнительный анализ Экспрессия генов в различных тканях, стадиях развития, состояний организма и т.д. Сотни тысяч образцов c тысячами вариантов измерений для десятков тысяч генов. ~10 13 измерений. Анализ механизмов регуляции коэкспрессирующихся генов. Связь с последовательностями, структурными и биохимическими данными. SNP (однонуклеотидные мутации в ДНК) Только одна база данных dbSNP содержит информацию о 10 8 мутациях в 23 геномах Анализ связи с заболеваниями Молекулярные взаимодействия, метаболические пути и генные сети Более 10 6 молекулярных взаимодействий описано в публикациях. Более ста тысяч метаболических путей и генных сетей представлено в базах данных. Моделирование молекулярно-генетических процессов и систем ЭкосетиБольшое разнообразие и сложное слабоформализованное описание. Моделирование экосистем Изображения. МикроскопияВ лабораториях накоплены гигантские объемы данных. Анализ изображений. Распознавание образов. ПубликацииДесятки миллионов публикацийПоиск и извлечение знаний Примеры биологических данных

Что надо пользователю? Пользователь хочет найти, идентифицировать, отобрать, получить и использовать данные (часто из разных источников) Собственник / администратор Описать, обеспечить доступ к данным, интегрировать данные Управлять доступом администрировать Полезные свойства службы метаданных

Различные аспекты решения задач биоинформатики Биологический В чем состоит задача? Какая биологическая информация о задаче есть в наличии? Какие новые знания можно получить, решив задачу? Математический Как математически описать или формализовать задачу? Чем можно пренебречь (абстрагироваться)? Алгоритмический Как эффективно решить задачу? Аналитический Как оценить качество модели, решающей задачу? Как сопоставить модель и экспериментальные наблюдения? Как оценить параметры модели по наблюдаемым экспериментальным данным? Статистический Как отличить реальные данные от артефактов? Как оценить параметры модели

Сложности интерпретации биологических данных - Различные геномные последовательности имеют одинаковую 3D структуру. - Один организм имеет много сходных генов. - Один ген может иметь много функций. - Множество генов могут совместно выполнять сложную функцию в организме в рамках генной сети. - Различные организмы могут иметь сходные гены со сходной функцией. - ???

Фундаментальные проблемы в интеграции знаний Гетерогенные программные системы hardware platforms Операционные системы Сетевые протоколы Языки программирования & форматы данных Гетерогенная структура и семантика данных Конфликт имен Конфликт измерений Конфликт представления Конфликт вычислений Конфликт уровней описания

Особенности предметной области и мотивации для разработки онтологий в биоинформатике 1.Большой темп накопления знаний. Появление новых высокопроизводительных экспериментальных установок. 2.Большой темп роста числа гетерогенных источников данных - баз данных. 3.Тенденция к усложнению моделей предметной области. 4.Расширение области применения молекулярно-генетических знаний: биомедицина, фармакология, нанобиоинженерия и т.д. 5.Необходимость решать задачи, требующие интеграции гетерогенных источников данных. 6.Главный вызов: cемантическая интеграция данных.

a) Поиска соответствующей информации из документов, обеспечивая структуру для аннотации содержания документа с семантической информацией [Alani et al., 2003; Gibbins et al., 2003]. b) Интеграция информации из различных источников обеспечивая структуру для ее организации и облегчая обмен данных, знаний и моделей [AgentCities.NET, 2000; OntoWeb, 2002]. c) Обеспечение непротиворечивости и корректности с помощью формулирования ограничений на содержимое информации [OntoWeb,2002]. d) Создание библиотек взаимообменных и повторноиспользуемых моделей [AgentCities.NET, 2000; OntoWeb, 2002]. e) Поддержка вывода для извлечения дополнительных знаний из множества фактов [G´omez et al., 2001; On-To-Knowledge, 1999]. Онтологии в биоинформатике полезны для:

Развитие онтологий в биоинформатике Число публикаций по онтологии, представленных в PubMed Foundational Model of Anatomy Gene ontology 1 st Bio-ontology meeting IMGT-ONTOLOGY UMLS TAMBIS OBO Plant Ontology Consortium Semantic WEB Proteomics Standards Initiative

Catalog Общие логические ограничения Термины/ глоссарий Тезаурусы: BT/NT, Parent/Child, неформальное is-A Формальное is-a фреймы (слоты) Formal instances Value Restriction Disjointness, Inverse, Part_of Ontology Dimensions based on McGuinness and Finin Простые таксономии Развитые онтологии MeSH, Gene Ontology, UMLS Meta CYC RDF(S) DB Schema IEEE SUOOWL KEGG TAMBIS EcoCyc BioPAX Ontylog Snomed Онтологии в биоинформатике Дескриптивная логика Решетка понятий и отношений фреймы

Содержание онтологии Biological process понятий Molecular function понятий Cellular component понятий Sequence ontology понятий Аннотированных данных - 35 множеств Организмов с аннотациями видов Аннотированных продуктов генов Общее число Из них: Электронная аннотация Ручная аннотация Статус Gene Ontology сентябрь 2007г

1.Вовлечение сообщества в проект: Открытый проект. Онтология строилась биологами и для биологов. 2.Ясные цели проекта: GO имел главную контролируемую специфическую цель – обеспечение последовательной аннотации для продуктов генов по трем главным функциональным атрибутам. Хотя существовали и другие цели. 3. Ограниченные рамки: Очевидно, что онтология всей биологии крайне полезна и важна. В то же время очень непрактична. Ограниченная, но полезная область даст возможность практически использовать разработку. 4. Простая структура: GO использует простой направленный ациклический граф, что очень эффективно для ее целей. Язык OBO увеличивает выразительность описания. 5. Постоянное совершенствование: Наше понимание биологии изменяется и расширяется. Поэтому специальная команда отвечает за изменения и поддержку версий. 6. Активное курирование: Управление процессом эволюции и подготовки релизов. 7. Раннее использование: Так как GO была полезна, то она стала использоваться. Даже относительно малый объем знаний был полезен для аннотации. Широкое использование позволяло тестировать и улучшать этот процесс. Причины успеха проекта Gene ontology Bada, M., et al., A short study on the success of the GeneOntology.// J Web Semantics, : p

публикаций из 284 журналов Кто цитирует GO?

A Gene Ontology Directed Acyclic Graph (DAG). Используются отношения типа is-a и part-of

is_a - простое отношение класс-подкласс, где A is_a B означает что A является подклассом B part_of - выражение C part_of D означает что если C is существует, то C всегда является частью D, но C не всегда существует. regulates, positively_regulates and negatively_regulates Отношения regulates, positively_regulates и negatively_regulates описывают отношения между биологическими процессами, молекулярными функциями или биологическими свойствами. Когда биологический процесс E regulates функцию или процесс F, то E регулирует появление F. Если F является биологическим свойством, то E регулирует значение F. Примером регуляции биологического процесса может быть термин регуляция транскрипции (regulation of transcription). Когда regulation of transcription имеет место быть, то всегда изменяется скорость транскрипции гена. Отношения между понятиями

P1. A part of B означает: A иногда является частью B. т.е. для каждого A в некоторое время t A является частью B. Пример: replication fork (иногда наблюдается в клеточном цикле) part of nucleoplasm. P2. A part of B означает: A может быть частью B. Класс A является частью класса B тогда и только тогда, если существует подкласс C B, в котором все экземпляры A включены как часть в экземпляры C и все экземпляры класса C имеют как часть экземпляры класса A. Пример: flagellum part of cell (некоторые типы клеток включают как часть flagella). P3. A part of B означает: словарь A включается в словарь B. Пример: «cellular component ontology» part of «gene ontology» Проблемы интерпретации отношения part_of в Gene Ontology Решение: в настоящее время имеется возможность редактировать отношения, а также использовать более специфичные отношения типа: is localized in или is involved in.

Проблемы интерпретации отношения is_a в Gene Ontology Пример 1: [1] «cell differentiation» is a «cellular process» [2] «cell differentiation» is a «development» Пример 2: [3] «hexose biosynthesis» is a «monosaccharide biosynthesis» [4] «hexose biosynthesis» is a «hexose metabolism» Решение: Хорошо структурированная классификация может быть получена путем замены отношения is_A на специальные типы, например: has_role, is_dependent_on, is_involved_in, contributes_to, is_located_in, а также позволяя использовать различные категории сущностей: sites, constituents, roles, functions, qualities

AMIGO: поиск и просмотр онтологий в GO OBO-Edit – просмотр и редактирование онтологических описаний. GoPubMed -поиск биологических текстов на основе Gene Ontology (GO) и Medical Subject Headings (MeSH). GoPubMed отвечает на вопросы: What, Who, Where and When. ( GOToolBox - анализ результатов ДНК чиповых экспериментов ( ) Blast2GO функциональная геномика на основе BLAST and GO Программное обеспечение для работы с GO

Онтологии в биологии Open Biological Ontologies (OBO) ( Накапливается информация об онтологиях и проектах, которые ведутся в области биологии. В рамках проекта OBO разрабатываются и инструментальные средства для работы с онтологиями. В настоящее время описано 70 онтологий, включая разделы: анатомия - 28 биохимия - 2 биологические процессы - 5 биологические функции - 1 биологические последовательности - 1 среда - 3 экспериментальные доказательства - 6 здоровье – 6 Фенотип – 5 Белки – 6 Таксономия - 4

Открытость: Все онтологии в OBO являются свободно доступными для сообщества. Общий метод представления: Используется OBO формат или Web Ontology Language (OWL). Это обеспечивает возможность доступа, используя стандартное ПО. Это предполагает и общую семантику для представления знаний. Независимость: Отсутствие дублирования между отдельными онтологиями способствует комбинаторному повторному использованию онтологий и взаимной линковки онтологий через отношения. Identifiers: Каждый термин должен иметь семантически независимый идентификатор, первая часть которого ссылается на оригинальную онтологию. Определения на естественном языке: Термины сами по себе чато произвольны, даже в контексте своей онтологии и определения обеспечивают гарантию соответствующей интерпретации. Open Biomedical Ontologies (OBO) Принципы организации:

The OBO Relation Ontology Отношения transitivesymmetricreflexiveantisymmetric Базовые отношения: is_a +–++ part_of +–++ Пространственные отношения: located_in +–+– contained_in –––– adjacent_to –––– Темпоральные отношения: transformation_of +––– derives_ from +––– preceded_by +––– Отношения участия: has_participant –––– has_agent ––––

C, C 1,... Подклассы класса continuant; P, P 1,... Подклассы класса process; c, c 1,... Экземпляры класса continuant; p, p 1,... Экземпляры класса process; r, r 1,... 3D пространство; t, t 1,... Время для экземпляров. c instance_of C at t p instance_of P c part_of c 1 at t p part_of p 1, r part_of r 1 c located_in r at t r adjacent_to r 1 t earlier t 1 c derives_from c 1 p has_participant c at t p has_agent c at t ОбозначенияЭлементарные отношения для экземпляров The OBO Relation Ontology

A is_a B =def. for all x, if x instance_of A, then x instance_of B. Проблемы учета времени: C is_a C 1 =def. for all c, t, if c instance_of C at t then c instance_of C 1 at t. P is_a P 1 =def. for all p, if p instance_of P then p instance_of P 1. Отношение is_a The OBO Relation Ontology

Отношение Part_of между экземплярами reflexivity: for all p, p part_of p, anti-symmetry: for all p, p1, if p part_of p1 and p1 part_of p then p and p1 are identical, transitivity: for all p, p1, p2, if p part_of p1 and p1 part_of p2, then p part_of p2. transitivity: for all c,c 1,c 2,t, if c part_of c 1 at t and c 1 part_of c 2 at t, then also c part_of c 2 at t. The OBO Relation Ontology

Обратные и реципрокные отношения Обратное отношение: A has_subclass B =def. B is_a A. Реципрокные отношения: C has_part C 1 =def. for all c, t, if Cct then there is some c 1 such that C 1 c 1 t and c 1 part_of c at t P has_part P 1 =def. for all p, if Pp then there is some p 1 such that: P 1 p 1 and p 1 part_of p C integral_part_of C 1 =def. C part_of C 1 and C 1 has_part C

OBO онтологии относятся к широкому спектру ПО от генотипа к фенотипу

Проект OLS Ontology Lookup Service (OLS) ( Сервер обеспечивает: накопление информации о различных онтологиях в области биологии. поиск понятий в различных онтологиях. Титульная страница Ontology Lookup Service. В настоящее время загружено: онтологий - 61 Понятий – Все онтологии интегрированы с OBO.

Проект Bioportal National Center for Biomedical Ontology BioPortal Общее число онтологий – 103 NCBO библиотека - 82 Удаленный доступ - 21 Число классов/типов Миссия и видение Национальный центр биомедицинской онтологии является международным консорциумом ориентированном на ускорение биомедицинских исследований. Все биомедицинские знания и экспериментальные данные распространясь через Internet в соответствии с определенным онтологическим описанием становятся семантически интероперабельными и полезными для использования в биомедицине и клинической практике. Такие знания и экспериментальные данные позволят проводить предсказуемую, интерпретируемую обработке независимо от источников знаний. Цель проекта создать программное обеспечение и службы поддержки для применения онтологий в биомедицине и клинической практике.

EcoCyc онтология Возможности: EcoCyc: Encyclopedia of Escherichia coli K12 – гены и метаболизм Биологи могут отображать структуру хромосом и генов у E.coli описание биохимических реакций описание метаболических путей и генетической регуляции Особенности реализации онтологии: Использование фреймов Обеспечение точных определений при описании понятий и отношений между ними Статическое описание – иерархия задается модельером, а не выводится системой. Развитие: BioCyc, MetaCyc, HumanCyc и т.д.

EcoCyc онтология is_a Иерархия наиболее важных EcoCyc классов и их взаимоотношений

TAMBIS ontology (TAO) Transparent Access to Multiple Bioinformatics Information Sources Мотивация: необходимость делать запросы одновременно к множеству внешних баз данных, используя общий интерфейс. Подходы: Использование онтологий для управления представлением и использованием гетерогенных источников Обеспечение однородного слоя над многочисленными гетерогенными базами данных и программами Обеспечение общего, интерфейса запросов Реализация онтологий: Использование дескриптивной логики Мощная иерархическая решетка понятий и их отношений Новые понятия могут конструироваться из существующих понятий и автоматически позиционироваться в решетке понятий 36

Foundational Model of Anatomy ontology Включает: 75,000 анатомических классов уникальных терминов более 205,000 фреймов и 174 уникальных слотов, которые используется для представления различных типов отношений, атрибутов и атрибутных отношений. Сеть отношений FMA содержит: более 2.5 миллиона экземпляров отношений. cвыше 1,000,000 экземпляров классов около 450,000 связей между классами.

Pathguide Содержит описание 240 источников биологических сетей: 1.Белок-белковые взаимодействия. 2.Метаболические пути. 3.Пути передачи сигналов. 4.Генные сети. Проблемы: Много источников данных о молекулярных взаимодействиях, трудно их комбинировать

BioPAX = Biological Pathway Exchange Language Цель: интеграция информации о молекулярных взаимодействиях из различных источников. Включает поддержку следующих типов biopathway: Метаболические пути Сигнальные пути Белок-белковые, молекулярные взаимодействия Генные регуляторные сети Генетические взаимодействия Accommodate representations used in existing databases such as BioCyc, BIND, WIT, aMAZE, KEGG, Reactome, etc. Поддерживается: XML Schema и OWL Онтологии строятся используя GKB Editor и Protégé

Результатом онтологического анализа предметной области является: (1) словарь терминов, их точных определений и взаимосвязей между ними; (2) описание правил и ограничений, согласно которым на базе введенной терминологии формируются достоверные утверждения, описывающие состояние системы; (3) модель, которая на основе существующих утверждений позволяет сделать соответствующие выводы, позволяющие вносить изменения в систему для повышения эффективности её функционирования. BioPAX = Biological Pathway Exchange Language

BioPAX Roadmap Level Области онтологии BioPAX Data Source Compatibility Физические сущностиВзаимодействияПути Метаданные / Полезность Level 1 Малые молекулыБиохимические реакцииМетаболическиеX-refsKEGG, BioCyc, WIT/PUMA2, aMAZE Белкиферментативный катализ Участники РНКТранспортный катализ КомплексыСборка комплексов Биологический смысл: Добыча знаний о простых метаболических путях Level 2 ДНКСвязываниеСеть молекулярных взаимодействий ОбоснованиеBIND, IntAct, HPRD, MINT, DIP, PSI format Достоверность Биологический смысл: Добавить поддержку молекулярных взаимодействий Level 3 ГеныМолекулярные состояния Передача сигналов Внешне контролируемые Transpath, PATIKA, CSNDB, Reactome, INOH Регуляция геновГенные сетиСловари Состояния Биологический смысл: Добавить поддержку сигнальных путей и регуляции экспрессии генов Level 4 Generic physicalГенетические взаимодействия Генные сети FlyBase entitiesGeneric interactionsГенетические пути MIPS Биологический смысл: Добавить поддержку генетических взаимодействий, сущностей и процессов. Future Levels Эффекты средыАбстрактные ассоциации (например, близость в путях, публикациях, клеточных компартментах и т.д.) Сеть абстрактных отношений ExperimentalPubGene descriptionsGeneWays КлеткиProvenance Клеточные компартменты Биологический смысл: Поиск абстрактных отношений между биологическими сущностями на клеточном уровне взаимодействий.

BioPAX Ontology: Top Level Subclass (is_a) Contains (has_a) Pathway Множество или серия взаимодействий, часто формирующих сеть, которую биологи считают полезной сгруппировать вместе по организационным, историческим, биофизическим или другим причинам. Например: Glycolysis, MAPK, Apoptosis Interaction Взаимодействие между двумя или множеством сущностей. Например: protein-protein interaction, biochemical reaction, enzyme catalysis Physical Entity Сущность с физической структурой. Например: Small molecules, Proteins, DNA, RNA

BioPAX Ontology: Physical Entities PhysicalEntity ComplexRNA ProteinSmall Molecule DNA is_a

BioPAX Ontology: Interactions Interaction Control Conversion Catalysis BiochemicalReaction ComplexAssembly ModulationTransport TransportWithBiochemicalReaction Physical Interaction Регуляция или модификация Превращение Взаимодействие между физическими сущностями is_a

CML, SMILE, InChI формат Дополнительные характеристики в контексте взаимодействий utilityClass онтологии BioPAX

Gene Network Reverse Engineering Use Case

Примеры проектов по развитию онтологий, осуществляющихся в ИЦиГ СО РАН

Пример разработки онтологии: генетика развития растений Функционирование генов на различных уровнях: мРНК, белок, клетка, ткань, орган, организм. Для разных стадий развития Клеточная функция Влияние на организм Влияние на ткань Уровень экспрессии Влияние на орган Молекулярная функция Denis Ponomaryov, Nadezhda Omelianchuk, Viktoria Mironova, Evgeny Zalevsky, Nikolay Podkolodnyy, Nikolay Kolchanov From papers to structured knowledge. The AGNS database and its applications // Lecture Notes in Artificial Intelligence В настоящее время основная масса данных по генетике растений представлена только в виде научных публикаций. Формализация этих данных, накопление в специализированных базах данных и их последующий анализ является важнейшей задачей биоинформатики.

Стадии развития База данных публикаций (Reference DataBase) База данных по экспрессии генов в норме и при мутациях (Expression DataBase) База данных фенотипических аномалий (Phenotype DataBase) Морфология AGNS - Arabidopsis GeneNet Supplementary DataBase Главными особенностями AGNS являются: - слабоструктурированные данные. - многообразие и неоднозначность морфологических понятий. - сложные взаимосвязи морфологических понятий на разных стадиях развития.

Проблемы использования таксономии для описания морфогенеза Использование двух несвязанных таксономий с основным отношением «part_of» при дальнейшем анализе данных приводит к неправильным логическим построениям, противоречащим биологии морфогенеза. Например, к утверждению, что растение в разные моменты развития имеет один и тот же набор органов. Для системных исследований процессов развития необходимо построение терминологического описания морфогенеза, как целостной предметной области, необходимо учесть «динамическую природу» отношения «part_of», так как один анатомический элемент может быть частью другого на одной стадии, но не быть таковым на следующей стадии. Shoot Apex SAM Leaf Primordium Shoot Apex SAM Leaf Primordium Развитие Stages < P1Stages >= P1

Онтология морфогенеза При создании онтологии использовались следующие предикаты: Anatomy_Element 1 Development_Stage 1 Has_Development_Stage 2 ( Anatomy_Element x Development_Stage ) Before 2 ( Development_Stage x Development_Stage ) Occurs_In 2 ( Development_Stage x Development_Stage ) + axioms: (1) (2) (3) (4) (5.1) (5.2) Denis Ponomaryov, Nadezhda Omelianchuk, Viktoria Mironova, Evgeny Zalevsky, Nikolay Podkolodnyy, Nikolay Kolchanov From papers to structured knowledge. The AGNS database and its applications // Lecture Notes in Artificial Intelligence. 2008

Онтология морфогенеза как инструмент для формулирования сложных запросов к базе данных Примеры запросов реализованных с и спользованием онтологии морфогенеза : S - стадия развития; найти все стадии раньше/позже S A - анатомический элемент, S - его стадия развития; найти элементы, принадлежащие A на стадии S Найти элементы, содержащие A на стадии S Найти анатомические элементы, из которых развивается А Найти анатомические элементы, которые развиваются из А А, B - анатомические элементы; найти стадии, которые претерпевает A, будучи частью B Является ли A частью B на некоторой стадии развития B? (по- другому: является ли A частью B когда-либо?)

Мутации как причина нарушения развития Аномалии листа растения: Centric Dentate Filament Lobed Misshapen Narrow Radialized Rounder Stunted Variable Типы аномалий в развитии: Остановка в развитии группы клеток (клетки): - терминация развития растения; - пропуск стадии в развитии растения Ускорение развития группы клеток (клетки): - Орган развивается по другому пути (из листа превратился в цветок). - Преждевременное развитие органов на более ранних стадиях

Нами сформулировано 21 правило для автоматического установления отношений между двумя заданными аномалиям. Различные типы отношений между аномалиями

Сопоставление данных: о нормальном развитии, о фенотипах мутантов, о времени и месте экспрессии генов позволяет выявить: стадию пре-детерминации фенотипической аномалии; анатомический элемент, где эта пре-детерминация происходит; определить роль гена в формировании признака на стадии его пре-детерминации. Формирование гипотез на основе данных AGNS

ANDVisio: приложение для построения семантических ассоциативных сетей по запросу пользователя Основные возможности: Автоматическое извлечение знаний о молекулярно-генетических ассоциациях и взаимодействиях из текстов научных статей и баз данных. Автоматическая реконструкция семантических сетей молекулярно-генетических ассоциаций и взаимодействий в клетке. ANDS: Associative Network Discovery System ANDCell: База знаний, содержащая факты о молекулярно-генетических ассоциаций и взаимодействий в клетке Direct interaction Catalytic reaction CleavageTreatment Co-expression Expression regulation Function/activity regulation Degradation/stability regulation Transport/release regulation ProteinsGenesMetabolitesPathways Cell components MicroRNAs CellsOrganismsDiseases ОбъектыТипы отношений Aman E.E., Demenkov P.S., Pintus S.S., Nemiatov A.I., Apasieva N.V., Dubovenko E.A., Ignatieva E.V., Podkolodny N.L., Ivanisenko V.A. DEVELOPMENT OF A COMPUTER SYSTEM FOR THE AUTOMATED RECONSTRUCTION OF MOLECULAR-GENETIC INTERACTION NETWORKS // PROCEEDINGS OF THE FIFTH INTERNATIONAL CONFERENCE ON BIOINFORMATICS OF GENOME REGULATION AND STRUCTURE. Vol 3. pp

ANDS: Онтология взаимоотношений между объектами Direct interaction Catalytic reaction Conversion Cleavage Co-expression Treatment Regulation Function/activity Expression Degradation/stability Transport/release Pathways Diseases Association DownregulationUpregulation

ANDS: Система извлечения и интеграции знаний о молекулярных взаимодействиях в клетке из фактографических и текстовых баз данных Aman E.E., Demenkov P.S., Pintus S.S., Nemiatov A.I., Apasieva N.V., Dubovenko E.A., Ignatieva E.V., Podkolodny N.L., Ivanisenko V.A. DEVELOPMENT OF A COMPUTER SYSTEM FOR THE AUTOMATED RECONSTRUCTION OF MOLECULAR-GENETIC INTERACTION NETWORKS // PROCEEDINGS OF THE FIFTH INTERNATIONAL CONFERENCE ON BIOINFORMATICS OF GENOME REGULATION AND STRUCTURE. Vol 3. pp

ANDS: Словари названий молекулярно-генетических объектов the Gene Ontology Protein names Gene names Metabolite names Disease names Organism names Cell component names MicroRNA names Pathway names (42864 – GO; – PubMed) Cell names PubMed

association involvement interaction expression regulation pathway regulation transport regulation64801 pathway upregulation64701 pathway downregulation64289 treatment51162 catalyze49164 expression upregulation46578 ANDS: Статистика по типам взаимодействий activity downregulation44314 activity upregulation40564 expression downregulation33680 miRNA regulation23576 conversion23519 activity regulation16982 degradation downregulation8455 degradation upregulation8265 coexpression6617 cleavage2170 degradation regulation1026 catalyze modification430 Total

We have reported previously that insulin inhibits the stimulatory effect of high glucose levels on angiotensinogen (ANG) gene expression in rat immortalized renal proximal tubular cells (IRPTCs) via the mitogen-activated protein kinase (p44/42 MAPK) signal transduction pathway. PMID: ANDS: Text-mining module: relation extraction from text Interaction participants: [Glucose]+[mitogen-activated protein kinase signal transduction pathway]->Angiotensinogen Interaction type: expression upregulation Interaction attribute: cell type: immortalized renal proximal tubular cells organism: rat ANG glucose mitogen-activated protein kinase (p44/42 MAPK) signal transduction pathway Red – object names Green – organizm name Blue – pathway name Orange – cell name Magenta – interaction types keywords

1. физические взаимодействия. 2. химические взаимодействия или реакции. Превращения каталитические реакции расщепление 3. регуляторные взаимодействия. регуляция экспрессии генов регуляция активности или функции белка, гена, клеточной компоненты или молекулярно-генетического процесса. регуляция транспорта белков или низкомолекулярных веществ регуляция стабильности или деградации молекулярных объектов. регуляция молекулярно-биологических процессов 4. коэкспрессия, то есть одновременная экспрессия нескольких генов, которая была вызвана общими регуляторными механизмами, активизирующими экспрессию генов при меняющихся условиях в клетке. ANDS:Примеры типов отношений между макромолекулами в ассоциативной семантической сети ANDS: Примеры типов отношений между макромолекулами в ассоциативной семантической сети

Система реконструкции механизмов регуляции транскрипции Задачи: создание онтологии предметной области (сущности, их взаимоотношения, процессы, их стадии, объекты, их роли в процессах). накопление информации об известных механизмах регуляции транскрипции. выявление групп коэкспрессирующихся генов (со сходной картиной регуляции транскрипции в клетках или тканях на определенной стадии развития). обнаружение закономерностей организации транскрипционных регуляторных районов у групп коэкспрессирующихся генов. реконструкция гипотетических механизмов регуляции транскрипции с учетом: данных о ролях и структурах регуляторных белков, присутствующих в заданных клетках или тканях на определенной стадии развития. закономерностях строения регуляторных районов коэкспрессирующихся генов. N.L. Podkolodnyy, S.S.Nechkin, E.V. Ignatieva, E.A. Ananko, O.A. Podkolodnaya БАЗА ДАННЫХ ДЛЯ ИССЛЕДОВАНИЯ ОСОБЕННОСТЕЙ ОРГАНИЗАЦИИ ТРАНСКРИПЦИОННЫХ РЕГУЛЯТОРНЫХ РАЙОНОВ КОЭКСПРЕССИРУЮЩИХСЯ ГРУПП ГЕНОВ // // PROCEEDINGS OF THE SIXTH INTERNATIONAL CONFERENCE ON BIOINFORMATICS OF GENOME REGULATION AND STRUCTURE. 2008

Система реконструкции механизмов регуляции транскрипции. 4 июля 2008г. Гены Структурно-функциональная организация районов регуляции транскрипции Уровень экспрессии DNA sequences Chromosomes Genes Transcription Start Sites Sources of short DNA sequences Выборки промоторов Уровни экспрессии Tissues GO terms CGAP UniGene EMBL/GenBank TRRD EntrezGene Entrez EntrezGenome Transcription factors Полногеномные последовательности Gene ontology Интеграция гетерогенных источников данных

Анализ структуры промоторов коэкспрессирующихся генов

GCN5 Complex ATF2 NF-KB IRF1 Энхансосома Пример: Регуляция транскрипции гена интерферона человека. Пошаговая сборка белковых комплексов, включающих хроматин-модифицирующие и базальные транскрипционные факторы на промоторном районе Участники: Белки (транскрипционные факторы): ATF2, NF-KB, IRF1, HMGI(Y) Участок ДНК (энхансер), свободный от нуклеосомной укладки Результат: образуется ДНК-белковый комплекс, способный притягивать мультибелковый комплекс GCN5 Нуклеосома 1 Нуклеосома 2 Стадия 1: сборка энхансосомы HMGI(Y)

ATF2 NF-KB IRF1 Энхансосома Участники: Гистон-ацетилазный комплекс: GCN5 N - концевые участки гистоновых белков Результат: ДНК-белковый комплекс приобретает конформацию, оптимальную для привлечения белка-коактиватора CBP Нуклеосома 1 Нуклеосома 2 Стадия 2: Ацетилирование гистонов с участием комплекса GCN5 HMGI(Y) GCN5 Complex Ac CBP Пример: Регуляция транскрипции гена интерферона человека.

ATF2 NF-KB IRF1 Энхансосома Участники: Комплекс: ДНК / энхансосома Белок-коактиватор: CBP Белковая машина: холоэнзим, включающая белок Pol II Результат: Создается возможность для привлечения SWI/SNF комплекса Нуклеосома 1 Нуклеосома 2 Стадия 3: Привлечение комплекса CBP/ Pol II HMGI(Y) Pol II Holoenzyme CBP SWI/SNF Пример: Регуляция транскрипции гена интерферона человека.

ATF2 NF-KB IRF1 Энхансосома Участники: Хроматин-ремоделирующая белковая машина SWI/SNF. Комплекс ДНК/энхансосома/ CBP Результат: Создается возможность для функционирования белковой машины SWI/SNF Нуклеосома 1 Нуклеосома 2 Стадия 4: Привлечение комплекса SWI/SNF HMGI(Y) Pol II Holoenzyme CBP SWI/SNF Пример: Регуляция транскрипции гена интерферона человека.

ATF2 NF-KB IRF1 Энхансосома Участники: Хроматин-ремоделирующая белковая машина SWI/SNF. Нуклеосомы Результат: Нуклеосомы разрыхляются, TATA бокс становится доступным для взаимодействия с TFIID. Нуклеосома 1 Нуклеосома 2 Стадия 5: Ремоделирование хроматина (нуклеосомной укладки) с участием хроматин-ремоделирующей белковой машины SWI/SNF HMGI(Y) Pol II Holoenzyme CBP SWI/SNF ТАТА Пример: Регуляция транскрипции гена интерферона человека.

ATF2 NF-KB IRF1 Энхансосома Участники: Промотор гена, включающий ТАТА бокс Базальный транскрипционный фактор TFIID. Результат: Становится возможным формирование преинициационного комплекса Нуклеосома 1 Нуклеосома 2 Стадия 6: Привлечение белка TFIID HMGI(Y) Pol II Holoenzyme CBP ТАТА TFIID Пример: Регуляция транскрипции гена интерферона человека.

ATF2 NF-KB IRF1 Энхансосома Участники: Комплекс ДНК/белок: ТАТА бокс/ TFIID Белковая машина: холоэнзим Результат: Становится возможной инициация транскрипции Нуклеосома 1 Нуклеосома 2 Стадия 7: Формирование преинициационного комплекса HMGI(Y) Pol II Holoenzyme CBP ТАТА TFIID Пример: Регуляция транскрипции гена интерферона человека.

Holoenzyme Pol II Участники: РНК полимераза Pol II Матричная цепь ДНК Результат: Синтезируются первые 2-9 нуклеотидов РНК Стадия 8: Инициация транскрипции ТАТА TFIID РНК Пример: Регуляция транскрипции гена интерферона человека.

Спасибо за внимание!