DNA vs. computer 1.Про 5-3 и всякую химию 2.Про банки данных (архивные vs. курируемые) 3.Святая троица EMBL – GenBank – DDBJ 4.Собственно EMBL, его разделы,

Презентация:



Advertisements
Похожие презентации
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Advertisements

Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Gtcactaaatactttaaccaatataggcatagcgcacagacagataaaaattacagagtacacaacatccatgaaacgcattagcaccaccattaccaccaccatcaccattacca gcttttcattctgactgcaacgggcaatatgtctctgtgtggattaaaaaaagagtgtctgatagcagcttctgaactggttacctgccgtgagtaaattaaaattttattgactta.
Структура курсов информатики и биоинформатики. Банки данных Архивные (примеры: PDB, GenBank) за содержание каждой записи отвечает её автор-экспериментатор.
Биоинформатика Исследование информационных процессов в биологических системах (клетках, органах, организме, популяции). Изучение и внедрение в компьютерную.
Профессиональные банки последовательностей – UniProt, SwissProt, TrEMBL О.Занегина
Что такое биоинформатика? Банк SwissProt С.А.Спирин 7, 8,10 февраля 2006 г., ФББ МГУ.
Что такое биоинформатика? Банк SwissProt С.А.Спирин 7, 8,10 февраля 2006 г., ФББ МГУ.
Swiss-Prot – одна из первых баз данных белковых последовательностей, gold standard белковой аннотации. Аннотация выполнена вручную группой профессиональных.
Биоинформатика Область науки, в которой решаются биологические задачи с помощью вычислительных методов математики и информационных технологий.
Молекулярный филогенез. ancestor descendant 1 descendant 2 Предположение: жизнь - монофилетична Любые два организма имеют общего предка в прошлом.
The PIR-PSD current release 78.03, November 24, 2003, contains entries. 65 proteins The PIR was established in 1984 by the National Biomedical.
Стандартная запись Swiss-Prot. Стандартные поля: entry, name, origin Название записи, уникальный идентификатор (ID), предыдущие идентификаторы соответствующей.
Pfam, ProSite, InterPro,... Банки структурной биологической информации GenBank, ENA(EMBL), DDBJ RefSeq Архивные базы последовательностей нуклеиновых кислот.
Решение задач биоинформатики при помощи веб - и интернет - сервисов.
Поисковые системы SRS, MRS, Expasy, Entrez О.Н.Занегина.
"The European Molecular Biology Open Software Suite"
Банки информации в молекулярной биологии С.А.Спирин 11/III – 2006.
Нуклеиновые кислоты. Нуклеиновые кислоты Д ДНК Р РНК Д Дезоксирибонуклеиновая Рибонуклеиновая кислота кислота ( (моносахарид – дезоксирибоза С 5 Н 10.
Ген-ориентированные базы данных и геномные браузеры Что такое ген-ориентированные базы данных? Самые простые примеры таких БД Примеры геном-ориентированных.
Транксрипт:

DNA vs. computer 1.Про 5-3 и всякую химию 2.Про банки данных (архивные vs. курируемые) 3.Святая троица EMBL – GenBank – DDBJ 4.Собственно EMBL, его разделы, классы даных и поля; CDS, кодирующие участки, ссылки из Swiss-Prot.

АТФ 5`- 3`-

Как записывают последовательности нуклеиновых кислот ? 1. Последовательность = последовательность однобуквенных символов. Никаких дефисов и обозначений фосфодиэфирных связей. 2. Одни и те же однобуквенные символы для последовательностей РНК и ДНК (при записи РНК обычно U T ). Любая последовательность по умолчанию считается ДНК (т.е. полимером 2'-дезоксирибонуклеотидов). 3. Одни и те же символы используются для обозначения азотистых оснований, нуклеозидов и нуклеотидов Допустимы заглавные и строчные буквы, хотя рекомендованы заглавные. 4. Последовательность записывается в направлении 5'3' Пример: 5'-CTCGAC-3' Nomenclature Committee of the International Union of Biochemistry (NC-IUB) Nomenclature for incompletely specified bases in nucleic acid sequences Recommendations 1984 Biochem. J. (1985) 229,

Общепринятые однобуквенные обозначения для стандартных азотистых оснований (остатков нуклеозидов и нуклеотидов) и вырожденных позиций в выравниваниях нуклеиновых кислот

NCBI и EBI National Center for Biotechnology Information и European Bioinformatics Institute (подразделение EMBL – European Molecular Biology Laboratory) Три базы данных – GenBank, EMBL и DDBJ (японская) – по сути, одно и то же. GenBank EMBL database DNA data bank of Japan

Что надо знать про банк EMBL -что это архив (за содержание записи несёт ответственность её автор) - поэтому разнобой в терминологии - поэтому одно и то же по многу раз - поэтому много неисправленных ошибок - что у последовательности из записи часто нет естественных границ - что это часть триединства (EMBL, GenBank, DDBJ) - ежедневный обмен данными - … ну и смысл основных полей, конечно (особенно структуру поля FT!)

~ последовательностей DDBJEMBL GenBank ttttacctctttttagtgatattgtgatatagagcaaaaatcccgacattgtgtcgggattgtttttaaactcttgttgattttaatttttcaatcgcttctttattaaagaagtagtgtgtgcc acaacactcacattgcatatcaatacggcctttatgttcggctaatatttcgtcaatttcttcatcagagatgagcagtagatgcagaactagaacgctcagcagagcagccaca gaaaaattgtacatcttgtgctggataaagattaacggtttcttcgtgatataaacgataggagtaactcttctgcagggagaccaaataattcttcatcttttactgttgctgcgagc gtagttaaatgctcaaaatcttctggtgtaccagaaccatcaggcataatttgtaataacatacctgctgccactggcttgccttcatattctccagtacgaataattaattgagtttg aagactcatattttcagtgaagtttcgatcgcccttaggaggggccgcgctttctctttcaa компьютерный поиск гена, трансляция и компьютерная аннотация UniRef (UniProt non-redundant Reference databases) PIR-PSD UniParc (UniProt Archive) последовательностей Экспертиза Базы данных научной литературы

Класс данных

Таксономический раздел

ID - identification (begins each entry; 1 per entry) AC - accession number (>=1 per entry) PR - project identifier (0 or 1 per entry) DT - date (2 per entry) DE - description (>=1 per entry) KW - keyword (>=1 per entry) OS - organism species (>=1 per entry) OC - organism classification (>=1 per entry) OG - organelle (0 or 1 per entry) RN - reference number (>=1 per entry) RC - reference comment (>=0 per entry) RP - reference positions (>=1 per entry) RX - reference cross-reference (>=0 per entry) RG - reference group (>=0 per entry) RA - reference author(s) (>=0 per entry) RT - reference title (>=1 per entry) RL - reference location (>=1 per entry) DR - database cross-reference (>=0 per entry) CC - comments or notes (>=0 per entry) AH - assembly header (0 or 1 per entry) AS - assembly information (0 or >=1 per entry) FH - feature table header (2 per entry) FT - feature table data (>=2 per entry) XX - spacer line (many per entry) SQ - sequence header (1 per entry) CO - contig/construct line (0 or >=1 per entry) bb - (blanks) sequence data (>=1 per entry) // - termination line (ends each entry; 1 per entry) Поле

FT FT Key Location/Qualifiers=value FT CDS /codon=(seq:"cug",aa:Ser) /codon=(seq:"tga",aa:Trp)

CDS и exons CDS – кодирующая последовательность, то есть ровно те нуклеотиды, что соответствуют белку (по крайней мере его основной форме). Кодирующие участки – те фрагменты ДНК, из которых составлен CDS. Exons – экзоны, то из чего будет составлена зрелая матричная РНК, они включают в себя 5` и 3` - нетранслируемые области – те части РНК, которые отвечают за регуляцию трансляции.

Ссылки из записи Swiss-Prot на EMBL Каждая строка – отдельный сиквенс; первая ссылка в строке – запись в EMBL, вторая – CDS внутри этой записи (здесь идентификатор, например, AAA – это идентификатор CDS в специальном дочернем банке данных EMBL-Coding sequences).

Статистика EMBL Total nucleotides Number of entries