Das FASTQ-Format ist ein textbasiertes Format zum Speichern einer biologischen Sequenz (meist Nukleotidsequenz) und ihrer entsprechenden Qualitätskennzahlen. Sowohl der Sequenzbuchstabe als auch die Qualitätskennzahl sind mit einem einzigen ASCII-Zeichen codiert.

FASTQ format
Dateiendung: .fastq
Entwickelt von: Wellcome Trust Sanger Institute
Erstveröffentlichung: ~2000
Art: Bioinformatik
Erweitert von: ASCII and FASTA format
https://maq.sourceforge.net/fastq.shtml

Es wurde ursprünglich am Wellcome Trust Sanger Institute entwickelt, um eine Sequenz im FASTA-Format mit ihren Qualitätsdaten zu verbinden und gemeinsam abzuspeichern. Das Format ist aber mittlerweile zum Standard für die Speicherung von high-throughput Sequenzdaten geworden[1].

Eine FASTQ-Datei hat vier Zeilen pro Sequenz:

  • Zeile 1 beginnt mit einem „@“-Zeichen, gefolgt von einer Sequenzkennung und einer optionalen Beschreibung (wie eine FASTA-Titelzeile).
  • Zeile 2 beinhaltet die Sequenzbuchstaben.
  • Zeile 3 beginnt mit einem „+“-Zeichen und kann optional dieselbe Sequenzkennung (und eine beliebige Beschreibung) aufweisen.
  • Zeile 4 codiert die Qualitätskennzahlen für die Sequenz in Zeile 2 und muss die gleiche Anzahl an Symbolen enthalten wie Buchstaben in der Sequenz sind.

Eine FASTQ-Datei mit einer einzigen Sequenz kann folgendermaßen aussehen:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

Einzelnachweise

Bearbeiten
  1. Peter J. A. Cock, Christopher J. Fields, Naohisa Goto, Michael L. Heuer, Peter M. Rice: The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants. In: Nucleic Acids Research. Band 38, Nr. 6, April 2010, ISSN 1362-4962, S. 1767–1771, doi:10.1093/nar/gkp1137, PMID 20015970, PMC 2847217 (freier Volltext).
Bearbeiten
  • MAQ webpage discussing FASTQ variants