Биоинформатика. Базы данных Порозов Юрий. porozov@sns.it porozov@ifc.cnr.it.

Презентация:



Advertisements
Похожие презентации
Молекулярный филогенез. ancestor descendant 1 descendant 2 Предположение: жизнь - монофилетична Любые два организма имеют общего предка в прошлом.
Advertisements

Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______ Масштаб 1 : 5000.
Приложение 1 к решению Совета депутатов города Новосибирска от Масштаб 1 : 5000.
В 2014 году «Колокольчику» исполняется 50 лет!!! 208 чёрно-белых фотографий из детсадовского архива Как молоды мы были …
1. Определить последовательность проезда перекрестка
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от _____________ ______.
1 Знаток математики Тренажер Таблица умножения 2 класс Школа 21 века ®м®м.
Масштаб 1 : Приложение 1 к решению Совета депутатов города Новосибирска от

ЦИФРЫ ОДИН 11 ДВА 2 ТРИ 3 ЧЕТЫРЕ 4 ПЯТЬ 5 ШЕСТЬ 6.
Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 6000 Приложение 7 к решению Совета депутатов города Новосибирска.
Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 4500 к решению Совета депутатов города Новосибирска от
Таблица умножения на 8. Разработан: Бычкуновой О.В. г.Красноярск год.
Swiss-Prot – одна из первых баз данных белковых последовательностей, gold standard белковой аннотации. Аннотация выполнена вручную группой профессиональных.
Фрагмент карты градостроительного зонирования территории города Новосибирска Масштаб 1 : 6000 Приложение 7 к решению Совета депутатов города Новосибирска.
Работа учащегося 7Б класса Толгского Андрея. Каждое натуральное число, больше единицы, делится, по крайней мере, на два числа: на 1 и на само себя. Если.
Введение в биоинформатику. Современное положение. Задачи и методы их решения. Порозов Юрий.
Ед. дес Задание 1. Задание 2 Задание 9.
1 Знаток математики Тренажер Таблица умножения 3 класс Школа России Масько Любовь Георгиевна Муниципальное общеобразовательное учреждение средняя общеобразовательная.
Рейтинг территорий с преимущественно городским населением по уровню преступности в 2008 году 1ЗАТО «Звездный»33,10 2Гремячинский230,00 3г. Кунгур242,00.
Транксрипт:

Биоинформатика. Базы данных Порозов Юрий.

Биоинформатика - наука, занимающаяся анализом экспериментальных данных молекулярной биологии: секвенированных последовательностей биополимеров, экспериментально определенных пространственных структур биологических макромолекул, данных об экспрессии генов и т.д. Методами биоинформатики являются методы организации информации, широко понимаемые компьютерные методы, методы вычислительной математики и статистики. (М.С. Гельфанд et al) Европейский Биоинформационный Институт: биоинформатика – это применение компьютерных технологий для администрирования и анализа биологических данных.

Биоинформатика – это способ заниматься биологией, не наблюдая живые существа, как зоологи, не делая опытов в пробирке, как экспериментальные биологи, а анализируя результаты массовых данных или целых проектов. Там есть два аспекта. Один – чисто практический. Оказывается, глядя на буковки, или на структуры белков, или на карты белковых взаимодействий, которые получены из таких массовых экспериментов, вы можете делать совершенно конкретные, проверяемые биологические утверждения. ………………… Вторая вещь. Это началось с чистой техники. Размер генома человека – 3 миллиарда нуклеотидов, 3 миллиарда букв. Их надо где-то хранить, ими надо уметь манипулировать. Это чисто техническая сторона. Но очень важная. ……… Этими колоссальными объемами данных надо уметь манипулировать. Кроме того, оказалось, что можно делать утверждения уже не настолько частные, что «этот белок делает это», а строить утверждения о системе взаимодействия белков в клетке. Описания общих свойств на уровне целой клетки. М.Гельфанд.

Третий аспект биоинформатики, с моей точки зрения, самый интересный, потому что самая правильная биоинформатика – это биоинформатика эволюционная. Интереснее всего описывать не то, как клетка устроена сейчас, а то, как она такой получилась. Что происходило, что породило такие механизмы внутри клетки и т. д. Эволюционная биология - наука очень старая, а молекулярная эволюция, то есть использование молекулярных данных для реконструкции эволюционных событий, – вещь более новая. Она стала возможной, когда такие данные стали приходить в эволюционную биологию. Происходят, по-видимому, некие культурные войны между классическими эволюционными биологами и молекулярными эволюционистами. Причем они происходят в одну сторону. М.Гельфанд.

Bioinformatics - A New Discipline Взято из: D. Gilberts & C. Tan, Large scale analysis and interpretation of genomics data. Computing Math& Stats Life sciences Physical sciences

The BIG Goal The greatest challenge, however, is analytical. … Deeper biological insight is likely to emerge from examining datasets with scores of samples. Eric Lander, array of hope Nat. Gen. volume 21 supplement pp 3 - 4, Bio-informatics: Provide methodologies for elucidating biological knowledge from biological data.

7 Goal: Enable the discovery of new biological insights and create a global perspective for life sciences. Data produced by bio-labs and stored in database. Better biological and medical understanding. Bio-InformaticsAlgorithms and Tools Это вычислительные методы для глобального понимания биологических данных. Что такое биоинформатика?

Биоинформатика Structural Genomics Pharmaco-Genomics Functional Genomics Proteomics Genomics Bioinformatics

Задачи биоинформатики Функциональная аннотация биополимеров Структурная аннотация биополимеров Эволюция Геномика и протеомика

Биополимеры ДНК РНК (дезоксирибонуклеиновые и рибонуклеиновые кислоты) – обеспечивающих хранение, передачу из поколения в поколение и реализацию генетической программы развития и функционирования живых организмов } Протеины (белки)

Последовательность (sequence, первичная структура)– цепь из мономеров (нуклеотиды или аминокислоты), составляющих ДНК, РНК или белок. Последовательности ДНК – от нуклеотидов (праймеры для ПЦР) до нескольких миллионов (хромосомная ДНК). Последовательности белков – десятки-тысячи аминокислот.

ДНК

O O=P-O O Фосфатная группа N Азотистое основание (A, G, C, or T) (A, G, C, or T) CH2 O C1C1 C4C4 C3C3 C2C2 5 Сахар Сахар(дезоксирибоза)

ДНК ДНК состоит из двух цепей нуклеотидов, соединённых попарно: ADENINE – THYMINE CYTOSINE - GUANINE Правило комплементарности

Двойная спираль P P P O O O P P P O O O G C TA

Биополимеры – ДНК Аденин Гуанин Цитозин Тимин Аденозинфосфа т Пурины Пиримидины

Биополимеры - ДНК J. Watson и F. Crick. Фото из архива Photo Researchers inc.

ДНК, дальнейшая упаковка.

ДНК Функции ДНК наследственность и изменчивость.

Репликация ДНК

Биополимеры - белки Аминокислоты - органические соединения, в молекуле которых одновременно содержатся карбоксильные и аминные группы. Последовательность, цепь аминокислот составляет белок.

Биополимеры - белки

Форматы файлов, используемых в биоинформатике FASTA >roa1_drome Rea guano receptor type III >> 0.1 MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDV VVMKDPRTKRSRGFGFITYSHSSMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVK KLFVGALKDDHDEQSIRDYFQHFGNIVDNIVIDKETGKKRGFAFVEFDDYDPVDKVVLQK QHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNW NNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGG GGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGN NQGFNNGGNNRRY >roa2_drome Rea guano ligand MVNSNQNQNGNSNGHDDDFPQDSITEPEHMRKLFIGGLDYRTTDENLKAHEKWGNIVDV VVMKDPTSTSTSTSTSTSTSTSTMIDEAQKSRPHKIDGRVEPKRAVPRQDIDSPNAGATVK KLFVGALKDDHDEQSIRDYFQHLLLLLLLDLLLLDLLLLDLLLFVEFDDYDPVDKVVLQK QHQLNGKMVDVKKALPKNDQQGGGGGRGGPGGRAGGNRGNMGGGNYGNQNGGGNW NNGGNNWGNNRGNDNWGNNSFGGGGGGGGGYGGGNNSWGNNNPWDNGNGGGNFGG GGNNWNGGNDFGGYQQNYGGGPQRGGGNFNNNRMQPYQGGGGFKAGGGNQGNYGN NQGFNNGGNNRRY

GenBank LOCUS SCU bp DNA PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds, and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U GI: KEYWORDS. SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), (1994) PUBMED REFERENCE 2 (bases 1 to 5028) AUTHORS Roemer,T., Madden,K., Chang,J. and Snyder,M. TITLE Selection of axial growth sites in yeast requires Axl2p, a novel plasma membrane glycoprotein JOURNAL Genes Dev. 10 (7), (1996) PUBMED REFERENCE 3 (bases 1 to 5028) AUTHORS Roemer,T. TITLE Direct Submission JOURNAL Submitted (22-FEB-1996) Terry Roemer, Biology, Yale University, New Haven, CT, USA FEATURES Location/Qualifiers source /organism="Saccharomyces cerevisiae" /db_xref="taxon:4932" /chromosome="IX" /map="9" CDS

GenBank. Запись sequence

GenBank. Запись mRNA

Сплайсинг и восстановление последовательности mRNA mRNA seq=(AF : )+(AF : )+(AF : )+(AF :1-45)+………

GenBank. Запись genomic DNA

GenBank. Аннотация

Как добавить данные в GB? Genbank/submit.html Зачем? информация в community; Журналы требуют это ДО публикации Долго ли это? 2 рабочих дня Данные могу быть закрыты до выхода статьи (по запросу) Что нужно? Последовательность, ее описание (аннотация), описание источника

Форматы описания белков PDB PDB-XML MMDB-Cn3D

PDB – Protein Data Bank HEADER LUMINESCENT PROTEIN 09-DEC-03 1RRX TITLE CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC CHROMOPHORES IN 3- TITLE 2 FLUOROTYROSYL-GREEN FLUORESCENT PROTEIN COMPND MOL_ID: 1; COMPND 2 MOLECULE: SIGF1-GFP FUSION PROTEIN; COMPND 3 CHAIN: A; COMPND 4 ENGINEERED: YES; COMPND 5 OTHER_DETAILS: CONTAINS 3-FLUORO-TYROSINE SOURCE MOL_ID: 1; SOURCE 2 ORGANISM_SCIENTIFIC: AEQUOREA VICTORIA; SOURCE 3 ORGANISM_COMMON: FUNGI; SOURCE 4 EXPRESSION_SYSTEM: ESCHERICHIA COLI; SOURCE 5 EXPRESSION_SYSTEM_COMMON: BACTERIA; SOURCE 6 EXPRESSION_SYSTEM_VECTOR_TYPE: PLASMID KEYWDS BETA-BARREL, EGFP, NON-CANONICAL AMINO ACID, CHROMOPHORE KEYWDS 2 ISOMERISATION EXPDTA X-RAY DIFFRACTION AUTHOR J.H.BAE,P.PARAMITA PAL,L.MORODER,R.HUBER,N.BUDISA REVDAT 1 08-JUN-04 1RRX 0 JRNL AUTH J.H.BAE,P.PARAMITA PAL,L.MORODER,R.HUBER,N.BUDISA JRNL TITL CRYSTALLOGRAPHIC EVIDENCE FOR ISOMERIC JRNL TITL 2 CHROMOPHORES IN 3-FLUOROTYROSYL-GREEN FLUORESCENT JRNL TITL 3 PROTEIN. JRNL REF CHEMBIOCHEM V JRNL REF 2 EUROP.J.CHEM.BIOL. JRNL REFN GE ISSN REMARK 1 REMARK 2 REMARK 2 RESOLUTION ANGSTROMS. REMARK 3 REMARK 3 REFINEMENT // REMARK 500 M RES CSSEQI ATM1 ATM2 ATM3 REMARK 500 LEU A 44 CA - CB - CG ANGL. DEV. = 13.7 DEGREES REMARK 500 LEU A 64 N - CA - C ANGL. DEV. =-16.6 DEGREES REMARK 500 LEU A 64 CA - C - O ANGL. DEV. =-16.0 DEGREES REMARK 500 LEU A 64 CA - C - N ANGL. DEV. = 31.6 DEGREES REMARK 500 LEU A 64 O - C - N ANGL. DEV. =-15.9 DEGREES REMARK 500 THR A 97 N - CA - C ANGL. DEV. =-14.0 DEGREES REMARK 500 GLU A 115 N - CA - C ANGL. DEV. =-13.1 DEGREES REMARK 900 REMARK 900 RELATED ENTRIES REMARK 900 RELATED ID: 1EMG RELATED DB: PDB REMARK 900 THE WILD TYPE OF STUDIED NON-CANONICAL AMINO ACID- REMARK 900 CONTAINING GFP DBREF 1RRX A UNP P42212 GFP_AEQVI SEQADV 1RRX YOF A 39 UNP P42212 TYR 327 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 THR 353 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 TYR 354 MODIFIED RESIDUE SEQADV 1RRX MFC A 66 UNP P42212 GLY 355 MODIFIED RESIDUE SEQADV 1RRX YOF A 74 UNP P42212 TYR 362 MODIFIED RESIDUE SEQADV 1RRX YOF A 92 UNP P42212 TYR 380 MODIFIED RESIDUE SEQADV 1RRX YOF A 106 UNP P42212 TYR 394 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 431 MODIFIED RESIDUE SEQADV 1RRX YOF A 143 UNP P42212 TYR 433 MODIFIED RESIDUE SEQADV 1RRX YOF A 151 UNP P42212 TYR 439 MODIFIED RESIDUE SEQADV 1RRX YOF A 182 UNP P42212 TYR 470 MODIFIED RESIDUE SEQADV 1RRX YOF A 200 UNP P42212 TYR 488 MODIFIED RESIDUE SEQRES 1 A 226 SER LYS GLY GLU GLU LEU PHE THR GLY VAL VAL PRO ILE SEQRES 2 A 226 LEU VAL GLU LEU ASP GLY ASP VAL ASN GLY HIS LYS PHE SEQRES 3 A 226 SER VAL SER GLY GLU GLY GLU GLY ASP ALA THR YOF GLY SEQRES 4 A 226 LYS LEU THR LEU LYS PHE ILE CYS THR THR GLY LYS LEU SEQRES 5 A 226 PRO VAL PRO TRP PRO THR LEU VAL THR THR LEU MFC VAL SEQRES 6 A 226 GLN CYS PHE SER ARG YOF PRO ASP HIS MET LYS GLN HIS SEQRES 7 A 226 ASP PHE PHE LYS SER ALA MET PRO GLU GLY YOF VAL GLN SEQRES 8 A 226 GLU ARG THR ILE PHE PHE LYS ASP ASP GLY ASN YOF LYS SEQRES 9 A 226 THR ARG ALA GLU VAL LYS PHE GLU GLY ASP THR LEU VAL SEQRES 10 A 226 ASN ARG ILE GLU LEU LYS GLY ILE ASP PHE LYS GLU ASP SEQRES 11 A 226 GLY ASN ILE LEU GLY HIS LYS LEU GLU YOF ASN YOF ASN SEQRES 12 A 226 SER HIS ASN VAL YOF ILE MET ALA ASP LYS GLN LYS ASN SEQRES 13 A 226 GLY ILE LYS VAL ASN PHE LYS ILE ARG HIS ASN ILE GLU SEQRES 14 A 226 ASP GLY SER VAL GLN LEU ALA ASP HIS YOF GLN GLN ASN SEQRES 15 A 226 THR PRO ILE GLY ASP GLY PRO VAL LEU LEU PRO ASP ASN SEQRES 16 A 226 HIS YOF LEU SER THR GLN SER ALA LEU SER LYS ASP PRO SEQRES 17 A 226 ASN GLU LYS ARG ASP HIS MET VAL LEU LEU GLU PHE VAL SEQRES 18 A 226 THR ALA ALA GLY ILE MODRES 1RRX YOF A 39 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 74 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 92 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 106 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 143 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 145 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 151 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 182 TYR 3-FLUOROTYROSINE MODRES 1RRX YOF A 200 TYR 3-FLUOROTYROSINE MODRES 1RRX MFC A 66 GLY CYCLIZED MODRES 1RRX MFC A 66 TYR CYCLIZED HETNAM YOF 3-FLUOROTYROSINE HETNAM MFC 5-[1-(3-FLUORO-4-HYDROXY-PHENYL)-METH-(Z)-YLIDENE]-3, HETNAM 2 MFC 5-DIHYDRO-IMIDAZOL-4-ONE FORMUL 1 YOF 9(C9 H10 F N O3) FORMUL 1 MFC C15 H16 F N3 O5 FORMUL 2 HOH *61(H2 O)

HELIX 1 1 GLU A 5 THR A HELIX 2 2 ALA A 37 YOF A HELIX 3 3 PRO A 56 VAL A HELIX 4 4 VAL A 68 SER A HELIX 5 5 PRO A 75 HIS A HELIX 6 6 ASP A 82 ALA A SHEET 1 A12 VAL A 12 VAL A 22 0 SHEET 2 A12 HIS A 25 ASP A O GLY A 31 N VAL A 16 SHEET 3 A12 LYS A 41 CYS A O THR A 43 N GLU A 34 SHEET 4 A12 HIS A 217 ALA A O LEU A 220 N LEU A 44 SHEET 5 A12 HIS A 199 SER A N SER A 202 O THR A 225 SHEET 6 A12 ASN A 149 ASP A N ILE A 152 O HIS A 199 SHEET 7 A12 GLY A 160 ASN A O GLY A 160 N ASP A 155 SHEET 8 A12 VAL A 176 PRO A O GLN A 177 N HIS A 169 SHEET 9 A12 YOF A 92 PHE A N GLU A 95 O GLN A 184 SHEET 10 A12 ASN A 105 GLU A O YOF A 106 N ILE A 98 SHEET 11 A12 THR A 118 ILE A O LYS A 126 N LYS A 107 SHEET 12 A12 VAL A 12 VAL A 22 1 N ASP A 21 O GLY A 127 CISPEP 1 MET A 88 PRO A CRYST P ORIGX ORIGX ORIGX SCALE SCALE SCALE ATOM 1 N SER A N ATOM 2 CA SER A C ATOM 3 C SER A C ATOM 4 O SER A O ATOM 5 CB SER A C ATOM 6 OG SER A O ATOM 7 N LYS A N ATOM 8 CA LYS A C // ATOM 47 CA PHE A C ATOM 48 C PHE A C ATOM 49 O PHE A O ATOM 50 CB PHE A C ATOM 51 CG PHE A C ATOM 52 CD1 PHE A C ATOM 495 CA VAL A C ATOM 496 C VAL A C ATOM 1164 CA SER A C ATOM 1819 CD1 ILE A C ATOM 1820 OXT ILE A O TER 1821 ILE A 229 HETATM 1822 O HOH O HETATM 1823 O HOH O // HETATM 1831 O HOH O HETATM 1832 O HOH O HETATM 1833 O HOH O HETATM 1880 O HOH O HETATM 1881 O HOH O HETATM 1882 O HOH O CONECT CONECT CONECT CONECT CONECT CONECT CONECT CONECT MASTER END

PDB-XML PDBML: the representation of archival macromolecular structure data in XML. John Wesbrook, Nobutoshi Ito, Haruki Nakamura, Kim Henrick and Helen M. Berman, Bioinformatics, 21(7), , A N ALA 1 ATOM A N ALA N

MMDB-Cn3D Cn3D – ПО для визуализации структур, последовательностей и выравниваний. Отличия от статичного PDB – связывает структурную и функциональную информацию (ключевые мутации- заболевания-активные сайты гомологов). Выравнивание структур и выравнивание последовательностей. Формат расширяемый – добавление информации. Работает как приложение в NCBI ENTREZ (но есть и локальная версия).

GCG

ClustalW CLUSTAL W (1.7) multiple sequence alignment IPNS_STRJU -MPILMPSAEVPTIDISPLSGDDAKAKQRVAQEINKAARGSGFFYASNHGVDVQLLQDVV IPNS_STRGR -MPIPMLPAHVPTIDISPLSGGDADDKKRVAQEINKACRESGFFYASHHGIDVQLLKDVV IPNS_FLASS ----MNRHADVPVIDISGLSGNDMDVKKDIAARIDRACRGSGFFYAANHGVDLAALQKFT IPNS_PENCH --MASTPKANVPKIDVSPLFGDNMEEKMKVARAIDAASRDTGFFYAVNHGVDVKRLSNKT IPNS_CEPAC MGSVPVPVANVPRIDVSPLFGDDKEKKLEVARAIDAASRDTGFFYAVNHGVDLPWLSRET *.** **:* * *.:. * :* *: *.* :***** :**:*: *.. IPNS_STRJU NEFHRNMSDQEKHDLAINAYNKDNP-HVRNGYYKAIKGKKAVESFCYLNPSFSDDHPMIK IPNS_STRGR NEFHRTMTDEEKYDLAINAYNKNNP-RTRNGYYMAVKGKKAVESWCYLNPSFSEDHPQIR IPNS_FLASS TDWHMAMSAEEKWELAIRAYNPANP-RNRNGYYMAVEGKKANESFCYLNPSFDADHATIK IPNS_PENCH REFHFSITDEEKWDLAIRAYNKEHQDQIRAGYYLSIPEKKAVESFCYLNPNFKPDHPLIQ IPNS_CEPAC NKFHMSITDEEKWQLAIRAYNKEHESQIRAGYYLPIPGKKAVESFCYLNPSFSPDHPRIK.:* :: :** :***.*** : : * ***.: *** **:*****.*. **. *: Выходной файл: aln format Форматы на

Источники информации и базы данных в Интернете

Типы баз данных Всеобъемлющие базы данных Организмоспецифические Молекулярноспецифические Дополнительные базы данных

Проблемы Биологические базы данных росли последние 20 лет: 1.Избыточность: множественные записи. 2.Неверные последовательности и записи. Открытость (данные добавляются пользователями): 1.Изменения вносятся владельцами записей. 2.Старые последовательности. 3.Неверные последовательности. 4.Неполные аннотации.

Пример GenBank GenBank, база данных последовательностей NCBI. В 1982 году: 700,000 bp, 700 последовательностей. В 2002 году : 29,000,000,000 22,000,000 последовательностей В 2009 году: 145,959,997,864 bp 49,063,546 последовательностей

Полные базы данных Большие базы данных ДНК, РНК и белков. Примеры: GenBank, EMBL, swissprot. Имеется обмен информацией между базами

NCBI (National center for biotechnology information) NCBI PubMed Books OMIM Nucleotides Proteins GenomesTaxonomy Structure Domains Exp profiles

NCBI - GenBank GenBank: открытая база данных нуклеотидных и аминокислотных последовательностей Источники информации: 1.Прямая подача от исследователей. 2.Литература. 3.Центры исследований последовательностей (Sanger, TIgr) 4.Обмен с другими базами (swiss-prot, PDB).

NCBI - GenBank GenBank поделён на подбазы: 1.Organism specific (Human, Bacteria, etc). 2.Molecule specific (DNA, RNA, protein). 3.Sequence specific (Genome, mRNA, ESTs etc).

EMBL Параллельная GenBank база данных.

Swiss prot База данных белков: 1.Очень хорошо аннотированная. 2.Отсутствует избыточность. 3.Имеются перекрёстные ссылки. 4.ID для нескольких связанных файлов белков

Организмоориентированные базы

Молекулоспецифические базы Базы даных, ориентированные на группы молекул GtRDB: The Genomic tRNA Database

PDB – Protein Data Bank Главная база данных 3D структур белков Включает порядка 65,000 белковых структур. Белки организованы в группы, семейства и т.д.

Swiss-Prot – одна из первых баз данных белковых последовательностей, gold standard белковой аннотации. Аннотация выполнена вручную группой профессиональных экспертов на основе экспериментальной информации, описанной в научных статьях. Организована в 1986 году – SIB+EBI+PIR+GU = prof. Amos Bairoch На сегодняшний день – Release последовательностей Анализ белковых последовательностей: Swiss-Prot

UniProt DB UniProt = Swiss-Prot + TrEMBL (Translated EMBL sequence database) TrEMBL – Release sequences

Поиск белка в Swiss-Prot (по названию)

Advances search

Результаты

Выборка гомологичных белков

Сохранить в FASTA формате