PAGE (XML)

PAGE (Page Analysis and Ground truth Elements) ist ein XML-Standard für die Kodierung von gescannten Dokumenten^[1]. Er ist mit dem ALTO-Format vergleichbar und ermöglicht es, die Organisation und Struktur einer Seite und ihrer Inhalte wiederzugeben.

PAGE XML kann verwendet werden, um zu beschreiben:

Seiteninhalte (Regionen, Textzeilen, Wörter, Glyphen, Lesereihenfolge, Textinhalt …).
die Auswertung der Layoutanalyse (Auswertungsprofile, Auswertungsergebnisse …)
die Bildaufteilung des Dokuments (Ausschneidungsraster).

Das Format wurde 2010 vom Pattern Recognition & Image Analysis Lab (PRIMA) an der Salford University in Manchester entwickelt.

Das Schema wurde für die Verwendung in Verbindung mit automatischen Segmentierungs- und Transkriptionstechniken (OCR und HTR (automatische Erkennung von Handschriften)) konzipiert: PAGE soll jeden einzelnen Schritt der Verarbeitungskette für die Analyse von Bilddokumenten unterstützen (von der Bildverbesserung über die OCR bis hin zur Layoutanalyse).

Das PAGE XML-Schema wird insbesondere als Export- und Importformat von Software für die automatische Transkription wie eScriptorium^[2] und Transkribus^[3] verwendet. Es ist auch ein Exportformat, das von Kraken verwendet wird, einem schlüsselfertigen OCR-System, das für Dokumente in historischen und nicht-lateinischen Schriftzeichen optimiert ist^[4].

Weblinks

Dokumentation von PAGE XML Format for Page Content durch das OCR-D Projekt der DFG.

Einzelnachweise

[1] ttps://github.com/PRImA-Research-Lab/PAGE-XML

[2] ttps://escripta.hypotheses.org/

[3] ttps://readcoop.eu/transkribus/howto/how-to-export-documents-from-transkribus/

[4] ttps://github.com/mittagessen/kraken

[1]

[2]

[3]

[4]