PAGE (XML)
PAGE (Page Analysis and Ground truth Elements) ist ein XML-Standard für die Kodierung von gescannten Dokumenten[1]. Er ist mit dem ALTO-Format vergleichbar und ermöglicht es, die Organisation und Struktur einer Seite und ihrer Inhalte wiederzugeben.
PAGE XML kann verwendet werden, um zu beschreiben:
- Seiteninhalte (Regionen, Textzeilen, Wörter, Glyphen, Lesereihenfolge, Textinhalt …).
- die Auswertung der Layoutanalyse (Auswertungsprofile, Auswertungsergebnisse …)
- die Bildaufteilung des Dokuments (Ausschneidungsraster).
Das Format wurde 2010 vom Pattern Recognition & Image Analysis Lab (PRIMA) an der Salford University in Manchester entwickelt.
Das Schema wurde für die Verwendung in Verbindung mit automatischen Segmentierungs- und Transkriptionstechniken (OCR und HTR (automatische Erkennung von Handschriften)) konzipiert: PAGE soll jeden einzelnen Schritt der Verarbeitungskette für die Analyse von Bilddokumenten unterstützen (von der Bildverbesserung über die OCR bis hin zur Layoutanalyse).
Das PAGE XML-Schema wird insbesondere als Export- und Importformat von Software für die automatische Transkription wie eScriptorium[2] und Transkribus[3] verwendet. Es ist auch ein Exportformat, das von Kraken verwendet wird, einem schlüsselfertigen OCR-System, das für Dokumente in historischen und nicht-lateinischen Schriftzeichen optimiert ist[4].
Weblinks
Bearbeiten- Dokumentation von PAGE XML Format for Page Content durch das OCR-D Projekt der DFG.