Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?

Презентация:



Advertisements
Похожие презентации
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
Advertisements

Семейства белков. Мотив и распознающее правило. БД Pfam, InterPro. А.Б.Рахманинова, 2010, второй семестр.
Быстрые пути эволюции белков. Домен. БД PFAM, InterPro. Четвертый семестр, занятие 6, 2010, А.Б.Рахманинова.
Семейства белков Паттерны и профили I курс, весна 2009, О.Н. Занегина.
Семейства белков Pfam Rubens: Holy Family with St Elizabeth.
Быстрые пути эволюции белков. Эволюционный домен. БД PFAM.
Множественные выравнивания как метод исследования Материалы к занятиям IV блока курса биоинформатики, 2006 А.Б.Рахманинова.
Последовательности белков Эволюционные домены и их выравнивание С.А.Спирин,
Эволюция семейства белков Эволюционные домены и их выравнивание.
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков сходная 3D-структура.
Структура курсов информатики и биоинформатики. Банки данных Архивные (примеры: PDB, GenBank) за содержание каждой записи отвечает её автор-экспериментатор.
Выравнивание биологических последовательностей А.Б.Рахманинова, С.А.Спирин 2005–2008.
Парные выравнивания биологических последовательностей А.Б.Рахманинова, С.А.Спирин 2008 (продолжение)
PSI – BLAST Position-Specific Iterated BLAST. PSI – BLAST: назначение для поиска удаленных белков или новых представителей семейств если простой BLAST.
Компьютерный анализ белковой последовательности Анализируют только аминокислотную последовательность белка, пренебрегают взаимодействием между боковыми.
Гомологичные последовательности – последовательности, имеющие общее происхождение (общего предка). Признаки гомологичности белков сходная 3D-структура.
Биоинформатика Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную.
Профессиональные банки последовательностей – UniProt, SwissProt, TrEMBL О.Занегина
Выравнивание … … последовательностей белков и его биологический смысл.
Эволюция доменной архитектуры. Домены как единицы непрерывной эволюции белков Под непрерывной эволюцией будем понимать эволюцию последовательности, происходящую.
Транксрипт:

Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?

Что хотим найти ? НАД-связывающий сайт/центр Сайты возможной посттрансляционной модификации (РТМ) Домен, связывающий сахар ДНК-связывающий домен Гомологичное семейство: особенности последовательностей, характерный тип структуры, функции, таксономия и т.п. Семейство 1 Семейство 3 Семейство 2 Суперсемейства Ортологи

Паттерн (pattern) – Позиционно специфическая матрица весов (PSSM) – Профиль–PSSM – Профиль–HМM - Подпись (signature) – «Oтпечатки пальцев» (fingerprints) – Кластер - Место, сайт(site) - Мотив (motif) – Домен (domain) – Семейство – Суперсемейство - Основные понятия и термины ?

Домен – единица эволюции, структуры и функции белков. Домен – компактная, относительно независимо сворачивающаяся структура, относительно консервативная в процессе эволюции. Белки могут состоять из одного или многих доменов. nitrogen fixation positive activator protein

Мотив ? Мотив в аминокислотной последовательности - набор консервативных остатков, важных для функции белка и расположенных на определенном (обычно коротком) расстоянии друг от друга в последовательности. Мотив структуры (структурный мотив) – часто встречающийся в белках элемент пространственной структуры ( -спираль, - шпилька, -поворот). В общем случае, структурные мотивы не обязательно соответствуют мотивам в аминокислотным последовательностях. Один домен может содержать один или несколько мотивов в аминокислотной последовательности. Мотив может не входить в домены. Не в любом выравнивании легко найти мотив.

Интуитивно понятно: Семейство - группа белков, имеющая общее происхождение. Аминокислотные последовательности выравниваются по всей длине со значимым весом и имеют сходную доменную структуру. Мнения расходятся, когда речь идет о критериях: насколько должны быть похожи белки одного семейства (id>=30%, id>= 50%) ??? должны белки одного семейства иметь в точности одну и ту же доменную структуру? Superfamily Family Subfamily Не корректнее ли говорить о семействах доменов?

Паттерн (pattern) – Позиционно специфическая матрица весов (PSSM) – Профиль–PSSM – Профиль–HМM - Подпись (signature) – «Oтпечатки пальцев» (fingerprints) - Место, сайт(site) - Мотив (motif) – Домен (domain) – Семейство – Суперсемейство - Основные понятия и термины ?

Банки белковых семейств и доменов, производные от банков аминокислотных последовательностей Коллекции мотивов Коллекции доменов PROSITE, 1989 Pfam BLOCKS SMART PRINTS ProDom, 1995 SUPERFAMILY InterPro, 1999 (Integrated Resource of Protein Families)

БД белковых доменов, семейств и функциональных сайтов. Содержит описание объектов + описание паттернов, профилей и правил для их обнаружения. Выравнивание хорошо изучен- ного семейства Функционально важные остатки 4-5 консервативных остатков Паттерн Если находим только«пра- вильные», то ОК Если много лишнего, то увеличиваем паттерн Поиск в SP Паттерн – регулярное выражение UNIXa: [AC]-x-V-x(4)-{ED} Ala или Cys- х-Val- х- х- х - х- (любой, но не Glu и не Asp)

PROSITE - биологически значимые сайты, паттерны и профили,

PROSITE Релиз 19.22, документов, 1330 паттернов, 595 профилей + ? правил. Профиль или весовая матрица (PSSM) F K L L S H C L L V F K A F G Q T M F Q Y P I V G Q E L L G F P V V K E A I L K F K V L A A V I A D L E F I S E C I I Q F K L L G N V L V C A C D E F G H I K L M N P Q R S T V W Y

Pfam Большая коллекция множественных выравниваний, доменов, семейств и профилей-HMM для них. Состоит из 2-х частей: PfamA – курируемая часть, покрывает 73% SWISS-Prot+TrEMBL PfamB – большое число маленьких семейств из автоматически сгенерированной базы доменов ProDom, не вошедших в PfamA. Удобна для анализа доменной структуры белков.

Pfam 1.Множественное выравнивание (ClustalX) некоторого семейства или кластера. 2.Экспертиза и корректировка выравнивания- затравки. 3.Построение профиля-НММ для затравки. 4.Поиск в базе данных а.к.последовательностей новых членов данной группы.

ProDom Рассматриваются все последовательности в SWISS- Prot+TrEMBL. Автоматическое выделение доменов (программа DOMAINER: сначала локальное попарное выравнивание (blastp) всех против всех, затем кластеризация) Некоторые семейства выделены на основе выравниваний из PfamA. Гомогенность семейства оценивается с помощью диаметра (max расстояния между 2 доменами в семействе) и радиуса (ср.кв. расстояние между доменами и консенсусом семейства). Оба параметра измеряются в РАМ

Статистика ProDom, ноябрь 2005 Всего белков (non fragmentary sequences from SwissProt (Rel 44.5) + TREMBL (Rel 27.5) - Sep 13, 2004 Семейств доменов Семейств доменов с 2-мя последовательностями

Pfam Prosite Prints Blocks Smart (ProDom, PIRaln, ProClass, Systers, Picasso etc. not shown) Example: ENTK_HUMAN (Enteropeptidase precursor) Сравнение

Создание интегрированной базы данных InterPro PROSITE PFAM PRINTS InterPro entries IPR IPR Интегрирование родственных подписей «вручную» ProDom SMART TIGRFAMs PIRSF SUPERFAMILY InterPro- an inte grated r esource of pro tein families, domains and functional sites.

Entry types in InterPro Family group of evolutionarily related proteins, that share one or more domains/repeats in common. Domain independent structural unit which can be found alone or in conjunction with other domains or repeats. Repeat region occurring more than once that is not expected to fold into a globular domain on its own. PTM (post-translational modification) The sequence motif is defined by the molecular recognition of this region in a cell. Active site catalytic pockets of enzymes where the catalytic residues are known. Binding site binds compounds but is not necessarily involved in catalysis.

Взаимосвязи подписей в InterPro Parent/child уровень семейства Contains/found in состав домена

Parent/child- family level