Der Prozess der Digitalisierung beginnt mit dem Scannen einer physischen Zeitung, wobei von jeder Seite ein Bild erstellt wird. Da Bilder an sich nicht durchsuchbar sind, müssen die Buchstaben des Textes erkennbar gemacht werden. Dafür kommt eine Technik zum Einsatz, die als optische Zeichenerkennung (optical character recognition, OCR) bezeichnet wird. OCR-Software ist in der Lage, das Bild eines Zeichens zu verstehen und es in eine digitale Einheit umzuwandeln, die ein einzelnes Zeichen darstellt.
Dazu sind zwei Einzelschritte erforderlich:
Folgende Merkmale können berücksichtigt werden:
Mithilfe eines ähnlichen Erkennungsmechanismus wird anschließend die Sprache identifiziert und die gefundenen Wörter werden mit einem entsprechenden Wörterbuch verglichen. Das Ergebnis der OCR-Verarbeitung ist ein transkribierter, maschinenlesbarer Text. Wir haben nun eine digitalisierte Zeitung: das Bild der Seite und ihren Text.
Der Kanal Computerphile, auf dem Informatikinhalte für ein nicht fachkundiges Publikum vermittelt werden, hat 2017 ein Interview mit dem OCR-Experten Professor Steve Simske veröffentlicht, in dem er die Grundprinzipien von OCR-Software erläutert. Im folgenden Abschnitt erklärt Professor Simske, wie die Klassifizierung von Schriftarten funktioniert: Sehen Sie sich diese Passage ab 10:10 bis 12:47 an
Das Grundprinzip der Klassifizierung: Was ist nötig, damit ein Wort einer bestimmten Schriftart zugeordnet werden kann? Wählen Sie zwei der vier unten aufgeführten Elemente aus.
Einige Schriftarten sind schwieriger zu verarbeiten als andere. Eine immer wieder auftretende Problematik bei historischen Texten ist die Erkennung von Texten in gotischer Schrift. Rufen Sie den Artikel „Vereine und Sport“, Luxemburger Wort, Dienstag, 16. Juli 1925, S. 4 auf und vergleichen Sie das Faksimile mit dem OCR-Text:
Hier sehen Sie das gescannte Bild der Titelseite der Neuen Zürcher Zeitung (NZZ), die am 26.10.1793 in Zürich, Schweiz, erschien. Darin wird über den Prozess und die Hinrichtung von Marie Antoinette, der Witwe von Ludwig XVI., im Oktober 1793 berichtet.
Das Archiv der NZZ wurde 2005 zum ersten Mal vollständig digitalisiert. Dabei wurden die Mikrofilme der Zeitungen eingescannt und anschließend mit OCR bearbeitet. Das Ergebnis dieses Prozesses war nicht perfekt, insbesondere bei früheren Texten, die noch in gotischer Schrift veröffentlicht wurden.
Im Rahmen des impresso-Projekts, auf das im Clip dieser Lektion Bezug genommen wird, haben Phillip Ströbel und Simon Clematide von der Universität Zürich mit Software experimentiert, die für die Erkennung von handschriftlichem Text entwickelt wurde, um so die Qualität der OCR für gotische Schriften zu verbessern.
Die beiden Ergebnisse der OCR sehen Sie unten. Vergleichen Sie sie und beantworten Sie die Fragen.
A. Erste Zeilen des Artikels auf der Titelseite der NZZ vom 26.10.1793 |
B. OCR-Ausgabe von 2005 |
Prozeß der Marie Antoinette. Nachdem dieselbe am i g. Weinm. alten StvlS, oder am rz. des ersten Monat« im 2,en Jahre der Republik neuen KaleuderstplS, in den Audienzsaal eingesührt wurde, und sie sich auf den Sessel niedergelassen hatte- fragte sie der Präsident: Wie sie heisse? „ Ich nenne mich, antwortete sie, Marie Antoinette von Lotharingen. Oestreich re. — Wer seyd ihr ?. Ich bin dir Wittwr Ludwig Capet«, ehemaligen Königs der Frauzo« seu.— Wie alt? Z8 Jahre. — Nun wurde von demGe-richtsschreiber die Auklagsakte vorgelesen. Darin» heißt e«,daß aus den dem Tribunale rnhandengestellten Schriften erhellet ‘Daß gleich den Messalinen Brunehaut, Fredegoude»nd Medizi«, die man einstKöniainnea von Frankreich genannt habe, und deren verhaßte Namennie au« de» Jahrbüchern der Geschichte werden vertilgt werde» , Marie Antoinette , Ludwig Capets Wittwr, feit ihrem Aufenthalte inFrankreich die Plage und Blotfaugeriun der Franzosen gewesen; daß sie” noch vor der glücklichen Revoluzion |
Verbesserte OCR-Ausgabe von 20199 |
Prozeß der Marie Antoinette. Nachdem dieselbe am 15. Weinm. alten Styls, oder am 23. des ersten Monats im 2ten Jahre der Republik neuen Kalenderstyls, in den Audienzsaal eingeführt wurde, und sie sich auf den Sessel niedergelassen hatte, fragte sie der Präsident: Wie sie heisse? „ Ich nenne mich, antwortete sie, Marie Antoinette von Lotharingen- Oestreich ic. — Wer seyd ihr ?. Ich bin die Wittwe Ludwig Capets, ehemaligen Königs der Franzosen.— Wie alt? 38 Jahre. — Nun wurde von dem Gerichtsschreiber die Anklagsakte vorgelesen. Darinn heißt es, daß aus en dem Tribunale zuhandengestellten Schriften erhelle: Daß gleich den Messalinen Brunehaut, Fredegonde und Medizis, die man einst Königinnen von Frankreich genaunt habe, und deren verhaßte Namen nie aus den Jahrbüchern der Geschichte werden vertilgt werden, Marie Antoinette, Ludwig Capets Wittwe, seit ihrem Aufenthalte in Frankreich die Plage und Blutsaugerinn der Franzosen gewesen; daß sie noch vor der glückichen Revoluzion |
A. Manuelle Transkription |
Prozeß der Marie Antoinette. Nachdem dieselbe am 15. Weinm. alten Styls, oder am 23. des ersten Monats im 2tem Jahre der Republik neuen Kalenderstyls, in den Audienzsaal eingeführt wurde, und sie sich auf dem Sessel niederlassen hatte, fragte sie der Präsident: Wie sie heisse? “Ich nenne mich, antwortete Sie, Marie Antoinette von Lotharingen-Oestreich - Wer seyd ihr? Ich bin die Wittwe Ludwig Capets, ehemaligen König der Franzosen. - Wie alt? 38 Jahre. - Nun wurde von dem Gerichtsschreiber die Anklagsakte vorgelesen. Darinn heißt es daß aus den dem Tribunale zuhandengestellten Schriften erhelle: Daß gleich den Messalinen Brunehaus, Fredegonde und Medizis, die man einst Königin von Frankreich genannt habe, und deren verhaßte Namen nie aus den Jahrbüchern der Geschichte werden vertilgt werden, Marie Antoinette, Ludwig Capets Wittwe, seit ihrem Aufenthalte in Frankreich die Plage und Blutsaugerinn der Franzosen gewesen: daß sie noch der glücklichen Revoluzion, |
Einen technischen und historischen Überblick sowie Informationen über einige Anwendungsgebiete der optischen Zeichenerkennung finden Sie im
Um zu verstehen, wie OCR Zeichen und Wörter identifiziert (bekannt als Mustererkennung), schauen Sie sich diesen Abschnitt an:
Eine ausführlichere Erklärung der einzelnen Schritte der optischen Zeichenerkennung erhalten Sie in diesem Interview mit Professor Steve Simske:
Informationen über das Prinzip der Binarisierung ab 2:29:
Hier finden Sie ab 3:55 Informationen über die einzelne verbundene Komponente (oder einen Buchstaben) ab 3:55:
Informationen zur Erkennung der in einem Text verwendeten Arten von Buchstaben bzw. zur Klassifizierung der Schriftarten ab 7:27: