UniProt
bioinformatische Datenbank für Proteine
From Wikipedia, the free encyclopedia
Zusammensetzung
Die Datenbank wird von einem Konsortium, das 2002 gebildet wurde, betrieben. Die Datenbank kombiniert Informationen aus drei zuvor getrennten Quellen:
- TrEMBL vom European Bioinformatics Institute (EBI), welches Teil des EMBL ist, daher der Name
- Swiss-Prot vom Swiss Institute of Bioinformatics (SIB)
- Protein Sequence Database (PIR-PSD) vom Protein Information Resource (PIR) an der Georgetown University in den USA.
Das EBI verfügt über eine große Quelle bioinformatischer Daten, das SIB beherbergt die Server des (ExPASy) (Expert Protein Analysis System), welche essentielle Informationen für die Proteomik bereitstellen. PIR leitet sich von der ältesten Proteinsequenzdatenbank (Margaret Oakley Dayhoffs Atlas of Protein sequence and structure) ab.
Die UniProt-Datenbanken
Jedes Mitglied des UniProt-Konsortiums pflegt die Datenbanken. Bis 2002[2] produzierten EBI und SIB zusammen Swiss-Prot und TrEMBL. Das PIR stellte die Datenbank PIR-PSD (Protein Sequence Database) zur Verfügung.
Swiss-Prot ist wohl die bekannteste Proteindatenbank auf Grund ihrer ausführlichen Querverweise, Literaturzitate, der Integration anderer Datenbanken und ihrer minimalen Redundanz. TrEMBL (Translated EMBL Nucleotide Sequence Data Library) ist eine Computer-annotierte Ergänzung der Swiss-Prot-Datenbank, die alle Übersetzungen von EMBL-Nukleotid-Einträgen enthält, die noch nicht in Swiss-Prot integriert vorliegen. Dies ermöglicht eine schnelle Datenbereitstellung.
Organisation
UniProt beinhaltet drei Elemente, die auf einen bestimmten Gebrauch spezialisiert sind:
- Die UniProt Knowledgebase (UniProtKB) ist die zentrale Datenbank für Proteinsequenzen. Sie gibt Informationen über die Funktion und Klassifikationen der Proteine und stellt Querverweise her.
- Das UniProt Archive (UniParc) speichert die Gesamtheit aller öffentlich erhältlichen Proteinsequenzdaten.
- Die UniProt Reference Clusters (UniRef) sind Datenbanken, die dem Benutzer eine schnellere Suche ermöglichen, indem sie verhindern, dass redundante Verknüpfungen verfügbarer Sequenzen erscheinen. So werden unter anderem identische Sequenzen und Vor-Fragmente (von verschiedenen Organismen) in einer Dateneintragung kombiniert.