Компьютерный анализ белковой последовательности Анализируют только аминокислотную последовательность белка, пренебрегают взаимодействием между боковыми.

Презентация:



Advertisements
Похожие презентации
Анализ белковой последовательности Анализ только аминокислотную последовательность (первичную структуру) белка без боковых цепей. Предсказание физико-химических.
Advertisements

Быстрые пути эволюции белков. Домен. БД PFAM, InterPro. Четвертый семестр, занятие 6, 2010, А.Б.Рахманинова.
Семейства белков Паттерны и профили I курс, весна 2009, О.Н. Занегина.
Семейства белков Pfam Rubens: Holy Family with St Elizabeth.
Swiss-Prot – одна из первых баз данных белковых последовательностей, gold standard белковой аннотации. Аннотация выполнена вручную группой профессиональных.
12 апреля 2011 г. Факультет Биоинженерии и Биоинформатики, 2 курс, весенний семестр Функции Мембранные белки. Транспортные белки.
Биоинформатика Область науки, в которой решаются биологические задачи с помощью вычислительных методов математики и информационных технологий.
Семейства белков. Мотив и распознающее правило. БД Pfam, InterPro. А.Б.Рахманинова, 2010, второй семестр.
Эволюция семейства белков Эволюционные домены и их выравнивание.
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
Структура курсов информатики и биоинформатики. Банки данных Архивные (примеры: PDB, GenBank) за содержание каждой записи отвечает её автор-экспериментатор.
Последовательности белков Эволюционные домены и их выравнивание С.А.Спирин,
Стандартная запись Swiss-Prot. Стандартные поля: entry, name, origin Название записи, уникальный идентификатор (ID), предыдущие идентификаторы соответствующей.
Анализ белковой последовательности Анализ только аминокислотной последовательность (первичную структуру) белка без боковых цепей. Предсказание физико-химических.
Биоинформатика Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную.
Анализ аминокислотной последовательности: паттерны, домены, семейства … или что, где и как искать?
Быстрые пути эволюции белков. Эволюционный домен. БД PFAM.
Эволюция доменной архитектуры. Домены как единицы непрерывной эволюции белков Под непрерывной эволюцией будем понимать эволюцию последовательности, происходящую.
Выравнивание … … последовательностей белков и его биологический смысл.
Название последовательности Номер столбца выравнивания Номер последнего в строке остатка ИЗ ЭТОЙ ПОСЛЕДОВАТЕЛЬНОСТИ Консервативный остаток Функционально.
Транксрипт:

Компьютерный анализ белковой последовательности Анализируют только аминокислотную последовательность белка, пренебрегают взаимодействием между боковыми цепями аминокислот. Что можно делать: Вычисление физико-химических параметров белка Предсказание продуктов расщепления протеазами Гидрофобные, гидрофильные участки: например, трансмембранные сегменты Пост-трансляционные модификации Функциональные домены, принадлежность к функциональным семействам

Компьютерный анализ белковой последовательности … и где это можно делать: The ExPASy server – протеомика The Swiss EMBnet – coiled-coil участки, выравнивания и др. биоинф. анализ The CBS Prediction Servers – локализация, пост-трансляционные модификации…

Программы для предсказания физико-химических параметров белка: ProtParam

ProtParam

Molecular weight (не учитывает пост-трансляционных модификаций) Аминокислотный состав Теоретическая pI Extinction coefficients (280 nm) (не учитывает пространственных взаимодействий аминокислот) Instability (менее 40 – хорошо) – нестабильность в эксперименте (test tube, статистика дипептидов) Half-life (yeast in vivo, mammalian reticulocytes in vitro, Escherichia coli in vivo; N-terminal rule) Алифатический индекс Grand average of hydropathicity (GRAVY) гидрофильность – (-), гидрофобность – (+)

Compute pI/Mw Выбирается участок белка (или весь белок), для него вычисляются теоретическая pI и молекулярный вес

Простейшие программы по вычислению параметров: PeptideMass Можно учитывать или не учитывать пост-трансляционные модификации для белков из Swiss-Prot, а также полиморфизмы, AS изоформы и конфликты

PeptideMass - output

PeptideCutter Для трипсина и хемотрипсина можно выбрать другую модель, в которой будет посчитана вероятность расщепления по каждому остатку

PeptideCutter - output

Метод скользящего окна Анализируется последовательность в несколько аминокислот, параметр усредняется по окну. Значение приписывается средней аминокислоте. Output – график Seq. LQAPVLPSDLLSWSCVGAVGILALVSFTCV Window 1 Window 2 Window 3 Размер окна должен соответствовать характерному размеру анализируемого свойства (для ТМ – 19!) Методы, основанные на технике скользящего окна, как правило, не интерпретируют результаты. При интерпретации важно: Учитывать только очень четко выраженные сигналы Не зависящие от параметров программы – размера окна, конкретного метода и т.п.

56 аминокислотных шкал (с литературными ссылками), скользящее окно -> выбор ширины окна Предсказание трансмембранных сегментов: ProtScale

ProtScale - output Правильный порог для метода – 1.6. Здесь находит не все

Более сложное предсказание трансмембранных сегментов: TMHMM Transmembrane beta barrel prediction: PROFtmb ( ); PRED-TMBB ( TBBPred ( )

TMHMM - результаты TMHMM предсказывает сегменты, а также топологию межсегментных участков Находит только 7! TMs

Домены Домен – независимая глобулярная единица в белке. Более функционально – часть белка, обладающая активностью (если отрезать, например). Как правило, каждый домен играет свою роль в функции белка (связывает ион или ДНК, содержит активный сайт и т.п.) Только небольшая часть известных доменов была изучена экспериментально, остальные описаны как сходные части гомологичных белков Очень сложно четко определить домен и его границы => существует много подходов и различных доменных коллекций. Какую выбрать?

История коллекций доменов 1980ые – PROSITE: ручная выборка паттернов в белках, определяющих функцию 1987 – доменный профайл (Gribskov): position specific scoring schema – это вероятность для каждой аминокислоты находиться в данной позиции домена начало 1990х – BLOCKs, PRINTs, Prodom… PfamA – коллекция профайлов, курированная вручную (сейчас также использует HMM)

3 сервера для поиска доменов InterProScan CD (Conserved Domain) server (NCBI) wrpsb.cgi Pfscan

InterPro InterPro is a database of protein families, domains and functional sites in which identifiable features found in known proteins can be applied to unknown protein sequences. Классификация базируется на первичных классификациях целого ряда баз данных функциональных доменов и семейств, объединяет всю доступную информацию С 2001 года – Release 18.0: 75.6% UniProt

Как это происходит Каждое InterPro семейство объединяет первичные семейства других баз данных, описывающие один и тот же домен; включает все белки, принадлежащие хотя бы одной из первичных баз. Документация IP семейства подробно описывает функцию и структуру соответствующей белковой подписи.

Поиск доменов: InterProScan

InterProScan - результаты

Table View

CD server Input - Accession number, gi или последовательность в FASTA формате

CD server – output Красный – SMART, синий – Pfam, зеленый – COGs Рваные концы указывают на неполные домены!!!! Курсор в графической части – краткое описание функции домена

CDART – поиск белков с аналогичной доменной структурой

Pfscan Как правило, работает несколько минут

Pfscan - output

Особенности вывода Pfscan Схема – легенда, как всегда под рисунком За легендой следует таблица с локализацией доменов Далее расшифровка каждого хита – с оценкой вероятности: ? или ! Затем следует графическая схема для каждого хита и scores (высокий score = хороший хит)

Match detail (или графическая схема)