Pfam (Protein Families) ist eine frei zugängliche Datenbank für bioinformatische Zwecke. Es handelt sich zum einen um eine maschinelle Kategorisierung von Proteindomänen, die alle bekannten Proteine einschließt. Grundlage ist die Mustererkennung mittels Machine Learning der Aminosäuresequenz. Die so ermittelten Muster können zum anderen in neuen Proteinen wiedergefunden werden, was einen Hinweis auf die Zusammensetzung dieser Proteine aus Domänen, und damit auch auf ihre Funktion, bzw. bei Enzymen auf die enzymatische Aktivität gibt. Für diese Vorhersage stellt Pfam einen Webservice bereit.

Pfam besteht aus zwei Teilen, Pfam-A und Pfam-B. In Pfam-A sind gut charakterisierte Domänen zusammengefasst, während sich Domänen mit unbekannter Funktion in Pfam-B befinden. Bei der Methode des maschinellen Clustering und der Mustererkennung handelt es sich um Hidden Markov Modelle.[1]

Pfam wurde 1997 von den Bioinformatikern Erik Sonnhammer (Karolinska Institutet bei Stockholm), Sean Eddy (Washington University in St. Louis, USA), und Richard Durbin (Wellcome Trust Sanger Institute bei Cambridge, UK) aufgebaut.[2] Um etliche Funktionalitäten erweitert, kam Anfang 2006 die Aktualisierung 18 heraus.[3] Im März 2013 wurde Pfam 27.0 veröffentlicht.[4]

Literatur

Bearbeiten
  1. R. Durbin, S. Eddy, A. Krogh, G. Mitchison: Biological Seqeuence Analysis. Cambridge University Press, Cambridge 1998, ISBN 0-521-62041-4.
  2. E. L. Sonnhammer, S. R. Eddy, R. Durbin: Pfam: a comprehensive database of protein domain families based on seed alignments. In: Proteins. 28, 1997, S. 405–420. PMID 9223186
  3. R. D. Finn, J. Mistry, B. Schuster-Bockler, S. Griffiths-Jones, V. Hollich, T. Lassmann, S. Moxon, M. Marshall, A. Khanna, R. Durbin, S. R. Eddy, E. L. Sonnhammer, A. Bateman: Pfam: clans, web tools and services. In: Nucleic Acids Res. 34, 2006, S. D247–D251. PMID 16381856
  4. pfam.sanger.ac.uk: Pfam 27.0 (Mar 2013, 14831 families) (Memento vom 17. Februar 2010 im Internet Archive)