Proteinfamilie

Proteinfamilie bezeichnet eine Gruppe von strukturell ähnlichen Proteinen, die zueinander in evolutionärem Zusammenhang stehen und in entsprechenden Genfamilien codiert sind. Die Bezeichnungen Genfamilie und Proteinfamilie werden meist synonym verwendet, je nachdem ob die Homologie in Bezug auf Genom und DNA (Gene) oder auf der Ebene der Genexpression, Biosynthese und biologischen Funktion (Proteine) betrachtet wird.

Eine Klassifizierung von Proteinen in Familien aufgrund ihrer Aminosäuresequenz und der Architektur der sequenzinternen Proteindomänen hilft beim theoretischen Verständnis der evolutionären Entstehung dieser Proteinfamilien und hat praktische Anwendungen in der Biotechnologie und Diagnostik.

Grundlagen

Evolution von Proteinfamilien

Die Erweiterung einer Proteinfamilie – oder die Entstehung einer neuen Familie – kann auf verschiedene Weisen geschehen; unterschiedliche Mechanismen schließen sich dabei nicht gegenseitig aus:

Entstehung homologer Gene Zwei Populationen derselben Spezies werden z. B. geografisch getrennt und entwickeln sich unabhängig voneinander. Im Genom der Nachkommen treten Mutationen auf, die bei der Expression zu veränderten Proteinen führen (z. B. Veränderung der Primärstruktur, was wiederum die Stabilität und Funktion des Proteins beeinflusst). In Abhängigkeit von den unterschiedlichen Lebensbedingungen werden diese Mutationen auf natürliche Weise selektioniert. Dadurch etabliert sich mit der Zeit in dieser Subpopulation das Gen, das für ein Protein mit leicht veränderten Eigenschaften codiert. Diese Gendrift führt in einer der beiden getrennten Spezies zu einer homologen Proteinvariante dieser Proteinfamilie oder – nach weiterer und längerer Veränderung – zu einer orthologen Proteinfamilie mit meist immer noch ähnlicher Aminosäuresequenz.

Entstehung paraloger Gene Eine weitere Möglichkeit ist die Veränderung eines Gens durch komplette oder partielle Genverdopplung (oder Vervielfachung). Dabei entsteht eine Kopie des Gens; es resultiert ein Gen-Cluster mit paralogen Sequenzen. Da eines der Gene noch immer in der Lage ist, seine ursprüngliche Funktion zu erfüllen, kann das andere divergieren. Durch weitere Mutationen können sich neue Funktionen in den daraus resultierenden Proteinen bilden.

Manche Gen- und Proteinfamilien haben im Laufe der Evolution durch eine Gen- oder Genomduplikation „Ausdehnung“ erfahren (z. B. eine Opsin-Genverdoppelung auf dem X-Chromosom bei Altweltaffen).^[1]

Verwendung von Bezeichnungen

Proteinfamilie, sehr eng gefasst: Die menschliche Cyclophilin-Proteinfamilie. Verschiedene „Familienmitglieder“ sind durch die leicht unterschiedlichen Strukturen ihrer Isomerase-Domänen repräsentiert.

Die Bezeichnung Proteinfamilie wird in der Literatur nicht einheitlich, sondern kontextabhängig verwendet. Proteinfamilie kann mehrere sehr große Gruppen von Proteinen mit einem niedrigst möglichen Niveau mathematisch nachweisbarer Sequenzhomologie (und damit verbunden sehr unterschiedlichen biologischen Funktionen) umfassen oder aber auf sehr eng gefasste Gruppen von Proteinen bezogen werden, die – miteinander verglichen – fast identische Sequenzen, dreidimensionale Strukturen und Funktionen besitzen.

Als Margaret Oakley Dayhoff Mitte der 1970er Jahre die Systematik der Proteinsuperfamilie (engl. protein superfamily) einführte,^[2]^[3]^[4] waren nur 493 Proteinsequenzen bekannt. Es waren meist kleine Proteine mit nur einer Proteindomäne wie Myoglobin, Hämoglobin, und Cytochrom c, die von Dayhoff und Mitarbeitern in 116 Superfamilien eingeteilt wurden. Die Bezeichnungen Superfamilie > Familie > Subfamilie erlaubten eine Abstufung und es wurden zahlenbezogene Definitionen dafür angegeben.^[5]^[6]

Parallel wurden über die Jahre auch andere Begriffe wie Proteinklasse (protein class), Proteingruppe (protein group) und Proteinunterfamilie geprägt und verwendet. Auch diese Bezeichnungen werden je nach dem Zusammenhang mehrdeutig verwendet.

Bedeutung des Verständnisses von Proteinfamilien

Die Gesamtzahl der direkt – oder über die Gene indirekt – sequenzierten Proteine von Lebewesen und Viren steigt stetig an und erfordert eine auf den biologischen Gegebenheiten beruhende, sinnvolle Strukturierung und Klassifizierung. Einige Wissenschaftler geben die Zahl von Proteinfamilien mit mindestens 60.000 an.^[7]

Einerseits besteht ein theoretisches Interesse am immer besseren Verständnis, wie sich verschiedene Gene – und die Funktionen der so codierten Proteine – im Lauf der Evolution verändert und entwickelt haben, andererseits gibt es ganz konkrete Anwendungen, bei denen die Kenntnis der Zusammenhänge zwischen Proteinfamilien und Domänenarchitektur eine wichtige Rolle spielen. Beispiele sind die enzymatische Synthese in der industriellen Biotechnologie, die Entwicklung von neuen Impfstoffen aus „maßgeschneiderten“ rekombinanten Proteinen, oder der Bereich der medizinischen Analytik (Proteomik).

Sequenzvergleiche durch phylogenetische und Clusteranalyse erlauben eine Zuordnung von Proteinen in Familien und die Zuordnung dieser in übergeordnete Superfamilien. Aus diesen Zuordnungen lassen sich theoretische Erwägungen bei neu entdeckten Proteinen bezüglich ihrer potentiellen Sekundär- und Tertiärstruktur machen und sie eröffnen mögliche Ansätze zur Aufklärung von noch unbekannten Funktionen.

Klassifizierungssysteme

Es gibt mehrere Systeme für die Klassifizierung von Proteinfamilien, die sich im Ansatz und der Systematik unterscheiden. Eines dieser Systeme wird im Detail beschrieben.

PIRSF-Klassifizierung

Die Datenbank Universal Protein Resource (UniProt), die aus dem 2002 erfolgten Zusammenschluss der Datenbanken TrEMBL des European Bioinformatics Institute (EBI), Swiss-Prot des Swiss Institute of Bioinformatics (SIB) und der Protein Information Resource (PIR) des Georgetown University Medical Center (GUMC), entstand, vertritt das PIR-Superfamily-Klassifizierungssystem (PIRSF).

Terminologie

Anfänglich war die auf den Arbeiten von Dayhoff basierende PIR-Klassifizierung in Superfamilie, Familie und Subfamilie linear hierarchisch strukturiert: Ein Protein konnte und durfte nur einer einzigen Proteinfamilie zugeordnet werden und diese nur einer einzigen Superfamilie. Dieses System musste revidiert werden, als mehr und mehr Primärstrukturen (durch die direkte Sequenzierung von gereinigten Proteinen, aber vor allem durch das Ablesen der in sequenzierten Genen codierten Proteine) bekannt wurden. Man erkannte, dass es Proteine gab, die strukturell eher einfach aufgebaut waren und andere, die über sehr komplexe Strukturen verfügten:

Homöomorphe Proteine (engl. homeomorphic proteins) sind Proteine, die untereinander „topologisch äquivalent“ sind, das heißt, sie sind vom N-Terminus bis zum C-Terminus homolog und weisen dieselbe Art, (ähnliche^[8]) Anzahl und Anordnung von Domänen (auch Domänenstruktur oder Domänenarchitektur genannt) auf, können aber unterschiedliche Sequenzlänge haben.
Domänen-Proteine (engl. domain proteins) sind aufgrund von Genfusionen, -deletionen und/oder -insertionen komplexer aufgebaut und enthalten verschiedene Domänen (oder Domänen in unterschiedlich angelegter Anordnung), die sonst nur bei sehr unterschiedlichen homöomorphen Proteinen gefunden werden.

Ab 1993 unterschied PIR deshalb zwischen homöomorphen Superfamilien (engl. homeomorphic superfamilies) und Domänen-Superfamilien (engl. domain superfamilies).

Regeln

Das PIRSF-System basiert auf folgenden Regeln:

Das Einpflegen eines neuen Proteins in eine Superfamilie, Familie oder Subfamilie wird nicht automatisch, sondern manuell durchgeführt; Ergebnisse maschineller Sequenzalignments und Clusteranalyse werden dabei hinzugezogen.
Jeder Eintrag wird so ausführlich wie möglich annotiert und andere Klassifizierungsschemata sowie Einträge aus anderen ähnlichen Datenbanken werden erwähnt.
Damit sowohl biochemische als auch biologische Funktionen eines Proteins klar dargelegt werden und auch um Proteine mit weniger gut (oder nicht) definierten Domänen klassifizieren zu können, beruht das PIRSF-System auf der Klassifizierung ganzer Proteine und nicht auf der Klassifizierung einzelner oder isolierter Domänen.
Eine hierarchische Struktur kann Verschiebungen von Domänen (engl. domain shuffling), die sich im Verlauf der Evolution ereignet haben, nicht darstellen. Daher ist das PIRSF-System „ein netzwerkartiges Klassifizierungssystem, das auf der evolutionären Verwandtschaft ganzer Proteine beruht“.
- Primäre Netzwerkknoten (primary nodes, parent node) sind die homöomorphen Proteinfamilien, die Proteine enthalten, die sowohl homolog (ortholog oder paralog; d. h. die einen gemeinsamen Vorläufer („Proteinahnen“, „Urprotein“) haben) als auch homöomorph sind, d. h. über die gesamte Länge der Primärstruktur Ähnlichkeit und eine gleichartige Anordnung der Domäne(n) besitzen; es werden definierte Parameter für die mathematischen Algorithmen zur Bestimmung von „Ähnlichkeit“ durch Sequenzalignment verwendet.
- Oberhalb dieser Knoten der homöomorphen Proteinfamilien sind die Knoten von weiteren (Domänen-)Superfamilien angeordnet. Diese evolutionär weiter voneinander entfernten Superfamilien (und auch die noch keiner Familie zugeordnete Einzelproteine) beruhen auf Domänen, die den darunter liegenden Superfamilien gemeinsamen sind (Eine unterhalb liegende homöomorphen Proteinfamilie kann – muss aber nicht – mehreren oberhalb liegenden Domänen-Superfamilien zugeordnet sein). Diese oberhalb angeordneten Superfamilien können homöomorphe Proteinsuperfamilien sein, aber es ist wahrscheinlicher, dass es Domänen-Superfamilien sind, wenn sich die Proteinbereiche, die die Domänen umfassen, nicht über die ganze Länge des Proteins erstrecken.
- Unterhalb der homöomorphen Proteinfamilien befinden sich Knoten von Subfamilien (engl. child “subfamily” nodes), homologe und homöomorphe Gruppen (engl. clusters) von Proteinen mit funktionaler Spezialisierung und/oder einer Variation der Domänenarchitektur innerhalb der Proteinfamilie. Jede Subfamilie hat nur einen übergeordneten Netzwerkknoten (parent node).

Beispiele von Protein(Super)familien

In der Folge findet sich eine unvollständige Auflistung von Proteinfamilien und -superfamilien.

Weblinks

Pfam – Datenbank von Proteinfamilien, Alignments und HMMs (engl.)
PROSITE – Databank für Proteindomänen, Proteinfamilien und functional sites (engl.)
PIRSF – SuperFamily Klassifikationssystem (engl.)
PASS2 – Proteinalignment in strukturelle Superfamilien (engl.)
SUPERFAMILY – HMM-Bibliothek zur Darstellung von Superfamilien und Datenbank von Superfamilien- und Familien-Annotierungen aller bisher komplett sequenzierten Organismen (engl.)

Einzelnachweise

↑ Timothy H. Goldsmith: Vögel sehen die Welt bunter.
↑ M.O. Dayhoff: Computer analysis of protein sequences, Fed. Proc. 33, 2314–2316, 1974
↑ M.O. Dayhoff, J.P. McLaughlin, W.C. Barker und L.T. Hunt: Evolution of sequences within protein superfamilies, Naturwissenschaften 62, 154–161, 1975
↑ M.O. Dayhoff: The origin and evolution of protein superfamilies, Fed. Proc. 35, 2132–2138, 1976
↑ Jahreshefte der Gesellschaft für Naturkunde in Württemberg, Bände 130–132, (1975), Seite 18: Proteinunterfamilie, mit weniger als 20 % Differenzen; Proteinfamilie, mit weniger als 50 % Differenzen; Proteingroßfamilie, hierzu gehören alle Proteine, deren Ähnlichkeit mit einer Wahrscheinlichkeit von über 99,9 % nicht zufällig ist, wobei die Zahl der übereinstimmenden Aminosäuren auch kleiner als 50 % sein kann.
↑ Detlev Ganten und Klaus Ruckpaul: Grundlagen der Molekularen Medizin, Springer (2007), Seite xxxi: Proteinfamilie, Gruppe von Proteinen mit mindestens 50 % Sequenzidentität; Proteinsuperfamilie, Gruppe von Proteinen mit signifikanter Ähnlichkeit untereinander, aber weniger als 50 % Sequenzidentität.
↑ V. Kunin, I. Cases, A.J. Enrigh, V. de Lorenzo und C.A. Ouzounis: Myriads of protein families, and still counting, Genome Biology 4, 401 (2003) (Memento vom 3. Oktober 2012 im Internet Archive)
↑ In der Domänenarchitektur können leichte Variationen auftreten, z. B. Wiederholung derselben Domäne oder bei „Hilfsdomänen“ (engl. auxiliary domains), die oft relativ leicht erworben, verschoben, ersetzt oder wieder verloren werden können.

[1] Timothy H. Goldsmith: Vögel sehen die Welt bunter.

[2] M.O. Dayhoff: Computer analysis of protein sequences, Fed. Proc. 33, 2314–2316, 1974

[3] M.O. Dayhoff, J.P. McLaughlin, W.C. Barker und L.T. Hunt: Evolution of sequences within protein superfamilies, Naturwissenschaften 62, 154–161, 1975

[4] M.O. Dayhoff: The origin and evolution of protein superfamilies, Fed. Proc. 35, 2132–2138, 1976

[5] Jahreshefte der Gesellschaft für Naturkunde in Württemberg, Bände 130–132, (1975), Seite 18: Proteinunterfamilie, mit weniger als 20 % Differenzen; Proteinfamilie, mit weniger als 50 % Differenzen; Proteingroßfamilie, hierzu gehören alle Proteine, deren Ähnlichkeit mit einer Wahrscheinlichkeit von über 99,9 % nicht zufällig ist, wobei die Zahl der übereinstimmenden Aminosäuren auch kleiner als 50 % sein kann.

[6] Detlev Ganten und Klaus Ruckpaul: Grundlagen der Molekularen Medizin, Springer (2007), Seite xxxi: Proteinfamilie, Gruppe von Proteinen mit mindestens 50 % Sequenzidentität; Proteinsuperfamilie, Gruppe von Proteinen mit signifikanter Ähnlichkeit untereinander, aber weniger als 50 % Sequenzidentität.

[7] V. Kunin, I. Cases, A.J. Enrigh, V. de Lorenzo und C.A. Ouzounis: Myriads of protein families, and still counting, Genome Biology 4, 401 (2003) (Memento vom 3. Oktober 2012 im Internet Archive)

[8] In der Domänenarchitektur können leichte Variationen auftreten, z. B. Wiederholung derselben Domäne oder bei „Hilfsdomänen“ (engl. auxiliary domains), die oft relativ leicht erworben, verschoben, ersetzt oder wieder verloren werden können.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]