Aus dem Regal ins Netz: Historische Zeitungen im digitalen Zeitalter

Diese Aufgaben erledigen M

M Aufgaben (4)

1 von 4 — Digitalisierung und wie Computer lesen lernen ¶

Der Prozess der Digitalisierung beginnt mit dem Scannen einer physischen Zeitung, wobei von jeder Seite ein Bild erstellt wird. Da Bilder an sich nicht durchsuchbar sind, müssen die Buchstaben des Textes erkennbar gemacht werden. Dafür kommt eine Technik zum Einsatz, die als optische Zeichenerkennung (optical character recognition, OCR) bezeichnet wird. OCR-Software ist in der Lage, das Bild eines Zeichens zu verstehen und es in eine digitale Einheit umzuwandeln, die ein einzelnes Zeichen darstellt.

Dazu sind zwei Einzelschritte erforderlich:

Binarisierung der Farben des Bildes, d. h. die Umwandlung des Bildes einer Seite in nur zwei Farben: Schwarz und Weiß. Dadurch wird das Bild der Seite vereinfacht und der Kontrast zwischen dunklen und hellen Bereichen erhöht, sodass sich die einzelnen Zeichen vom Hintergrund der Seite abheben.

Klassifizierung der Buchstaben. Nachdem die einzelnen Buchstaben voneinander abgegrenzt wurden, müssen sie zu Wörtern zusammengesetzt werden. Dazu vergleicht die Software die erfassten Buchstaben zunächst mit bekannten Schriftarten und wählt die am besten passende Schriftart aus.

Folgende Merkmale können berücksichtigt werden:

Handelt es sich um Buchstaben aus einem lateinischen oder arabischen Alphabet?

Sind die Buchstaben kursiv oder fett?

Ist die Schriftart Times New Roman oder Comic Sans MS?

Mithilfe eines ähnlichen Erkennungsmechanismus wird anschließend die Sprache identifiziert und die gefundenen Wörter werden mit einem entsprechenden Wörterbuch verglichen. Das Ergebnis der OCR-Verarbeitung ist ein transkribierter, maschinenlesbarer Text. Wir haben nun eine digitalisierte Zeitung: das Bild der Seite und ihren Text.

Aufgaben

20 Min

1.a Schrifterkennung

1.b OCR und gotische Schrift

1.c Verbesserung der OCR-Qualität

Hier sehen Sie das gescannte Bild der Titelseite der Neuen Zürcher Zeitung (NZZ), die am 26.10.1793 in Zürich, Schweiz, erschien. Darin wird über den Prozess und die Hinrichtung von Marie Antoinette, der Witwe von Ludwig XVI., im Oktober 1793 berichtet.

Das Archiv der NZZ wurde 2005 zum ersten Mal vollständig digitalisiert. Dabei wurden die Mikrofilme der Zeitungen eingescannt und anschließend mit OCR bearbeitet. Das Ergebnis dieses Prozesses war nicht perfekt, insbesondere bei früheren Texten, die noch in gotischer Schrift veröffentlicht wurden.

Im Rahmen des impresso-Projekts, auf das im Clip dieser Lektion Bezug genommen wird, haben Phillip Ströbel und Simon Clematide von der Universität Zürich mit Software experimentiert, die für die Erkennung von handschriftlichem Text entwickelt wurde, um so die Qualität der OCR für gotische Schriften zu verbessern.

Die beiden Ergebnisse der OCR sehen Sie unten. Vergleichen Sie sie und beantworten Sie die Fragen.

A. Erste Zeilen des Artikels auf der Titelseite der NZZ vom 26.10.1793

B. OCR-Ausgabe von 2005

Prozeß der Marie Antoinette. Nachdem dieselbe am i g. Weinm. alten StvlS, oder am rz. des ersten Monat« im 2,en Jahre der Republik neuen KaleuderstplS, in den Audienzsaal eingesührt wurde, und sie sich auf den Sessel niedergelassen hatte- fragte sie der Präsident: Wie sie heisse? „ Ich nenne mich, antwortete sie, Marie Antoinette von Lotharingen. Oestreich re. — Wer seyd ihr ?. Ich bin dir Wittwr Ludwig Capet«, ehemaligen Königs der Frauzo« seu.— Wie alt? Z8 Jahre. — Nun wurde von demGe-richtsschreiber die Auklagsakte vorgelesen. Darin» heißt e«,daß aus den dem Tribunale rnhandengestellten Schriften erhellet ‘Daß gleich den Messalinen Brunehaut, Fredegoude»nd Medizi«, die man einstKöniainnea von Frankreich genannt habe, und deren verhaßte Namennie au« de» Jahrbüchern der Geschichte werden vertilgt werde» , Marie Antoinette , Ludwig Capets Wittwr, feit ihrem Aufenthalte inFrankreich die Plage und Blotfaugeriun der Franzosen gewesen; daß sie” noch vor der glücklichen Revoluzion

Verbesserte OCR-Ausgabe von 20199

Prozeß der Marie Antoinette. Nachdem dieselbe am 15. Weinm. alten Styls, oder am 23. des ersten Monats im 2ten Jahre der Republik neuen Kalenderstyls, in den Audienzsaal eingeführt wurde, und sie sich auf den Sessel niedergelassen hatte, fragte sie der Präsident: Wie sie heisse? „ Ich nenne mich, antwortete sie, Marie Antoinette von Lotharingen- Oestreich ic. — Wer seyd ihr ?. Ich bin die Wittwe Ludwig Capets, ehemaligen Königs der Franzosen.— Wie alt? 38 Jahre. — Nun wurde von dem Gerichtsschreiber die Anklagsakte vorgelesen. Darinn heißt es, daß aus en dem Tribunale zuhandengestellten Schriften erhelle: Daß gleich den Messalinen Brunehaut, Fredegonde und Medizis, die man einst Königinnen von Frankreich genaunt habe, und deren verhaßte Namen nie aus den Jahrbüchern der Geschichte werden vertilgt werden, Marie Antoinette, Ludwig Capets Wittwe, seit ihrem Aufenthalte in Frankreich die Plage und Blutsaugerinn der Franzosen gewesen; daß sie noch vor der glückichen Revoluzion

Wie wurde das Wort „Wittwe“ 2005 und 2019 erkannt?
Welche Unterschiede fallen Ihnen bei der Erkennung von Zahlen zwischen den Ergebnissen von 2005 und 2019 auf? Schauen Sie sich nun die manuelle Transkription desselben Textes an und vergleichen Sie die Zahlen mit der Erkennung in den Ergebnissen von 2005 und 2019.

A. Manuelle Transkription

Prozeß der Marie Antoinette. Nachdem dieselbe am 15. Weinm. alten Styls, oder am 23. des ersten Monats im 2tem Jahre der Republik neuen Kalenderstyls, in den Audienzsaal eingeführt wurde, und sie sich auf dem Sessel niederlassen hatte, fragte sie der Präsident: Wie sie heisse? “Ich nenne mich, antwortete Sie, Marie Antoinette von Lotharingen-Oestreich - Wer seyd ihr? Ich bin die Wittwe Ludwig Capets, ehemaligen König der Franzosen. - Wie alt? 38 Jahre. - Nun wurde von dem Gerichtsschreiber die Anklagsakte vorgelesen. Darinn heißt es daß aus den dem Tribunale zuhandengestellten Schriften erhelle: Daß gleich den Messalinen Brunehaus, Fredegonde und Medizis, die man einst Königin von Frankreich genannt habe, und deren verhaßte Namen nie aus den Jahrbüchern der Geschichte werden vertilgt werden, Marie Antoinette, Ludwig Capets Wittwe, seit ihrem Aufenthalte in Frankreich die Plage und Blutsaugerinn der Franzosen gewesen: daß sie noch der glücklichen Revoluzion,

Hätten Sie diesen Artikel anhand der ersten OCR finden können, wenn Sie mit den folgenden Stichworten gesucht hätten: „Marie Antoinette“, „Revolution“? Begründen Sie Ihre Antworten für beide Fälle.

Empfehlungen Lektüre/Videos

2 von 4 — Mit Artikelsegmentierung die Grippe einfangen ¶

Damit digitalisierte Zeitungen durchsucht werden können, ist ein weiteres Verfahren erforderlich: die Artikelsegmentierung. In Zeitungen werden häufig Texte zu nicht miteinander zusammenhängenden Themen auf derselben Seite veröffentlicht. Zudem sind Artikel häufig in Teilen auf verschiedenen Seiten abgedruckt. Will man eine brauchbare Version eines Artikels finden, muss man verstehen, welche Zeichen und Wörter zu diesem Artikel gehören. Möglich wird dies durch die Technik der Artikelsegmentierung. OCR liefert Informationen darüber, welche Buchstaben und Wörter auf welcher Zeitungsseite vorkommen. Die Artikelsegmentierung, eine Technik, bei der eine Seite in kleinere Einheiten aufgeschlüsselt wird, liefert Informationen darüber, welche Buchstaben und Wörter auf einer Seite zur gleichen Einheit gehören.

Nach OCR und Artikelsegmentierung werden die digitalisierten Zeitungen schließlich der Öffentlichkeit zur Verfügung gestellt. Die extrahierten Texte und Bilder der Zeitungen werden im Internet veröffentlicht und können über eine speziell entwickelte Schnittstelle eingesehen und durchsucht werden. Die Artikelsegmentierung ist jedoch nicht immer Teil des Digitalisierungsprozesses. Als Nutzer bemerkt man dies erst, nachdem man eine Suche durchgeführt hat. Sie werden den Unterschied bemerken, wenn Sie in digitalen Zeitungsarchiven suchen, in denen dieses Prinzip angewandt wurde, und in solchen, in denen es nicht angewandt wurde.

Aufgaben

20 Min

2.a Einen Artikel zur Spanischen Grippe finden

2.b Suchanfragen zur Spanischen Grippe: andere Länder, andere Reaktionen?

Empfehlungen Lektüre/Videos

3 von 4 — Verwendung digitalisierter Zeitungssammlungen in der Praxis ¶

Nachdem Maßnahmen zur Gewährleistung einer guten OCR-Qualität ergriffen wurden, muss auch die Qualität des Textabrufs durch die Suchmaschine und die Interaktion mit dem Nutzer über die Benutzeroberfläche gewährleistet sein. Damit bestimmte Artikel gefunden und gelesen werden können, müssen ein System und eine Schnittstelle entwickelt werden, die es ermöglichen, die Datenbank zu durchsuchen und auf den Speicherort der digitalisierten Zeitungen zuzugreifen. Die Datenbank benötigt daher umfangreiche Informationen über jedes der enthaltenen digitalisierten Objekte. Diese Informationen werden als Metadaten bezeichnet, was wörtlich „Informationen über Daten“ bedeutet. Im Allgemeinen sind die grundlegendsten Angaben bei Büchern und Artikeln der Name des Autors, der Titel der Publikation, das Datum der Veröffentlichung und die Sprache des Dokuments. Bei Zeitungen beschränken sich die verfügbaren Informationen in der Regel auf den Titel der Zeitung und das Datum der Veröffentlichung der jeweiligen Ausgabe.

Damit das gesamte digitalisierte Material in einer Online-Suchumgebung genutzt werden kann, benötigen wir folgende Dinge:

eine Datenbank, in der das Ergebnis der Digitalisierung gespeichert wird (das Bild jeder Zeitungsseite, die OCR und die Metadaten),

eine Benutzeroberfläche, über die Sie Ihre Anfrage eingeben und die Ergebnisse durchsuchen können,

eine Suchmaschine, die Ihre Anfrage von der Benutzeroberfläche empfängt und in der Datenbank nach relevanten Ergebnissen sucht.

Die Ergebnisliste auf Ihrem Bildschirm ist das Resultat der Interaktion zwischen diesen drei Elementen. Fehler oder fehlende Elemente können auf ein Problem bei einem dieser Elemente zurückzuführen sein. Wie wir gesehen haben, kann auch die Digitalisierung selbst zu Fehlern führen. Da wir es mit historischen Texten zu tun haben, ist es außerdem wichtig zu bedenken, dass sich die Schreibweise im Laufe der Zeit geändert haben kann oder dass in der historischen Quelle selbst Schreibfehler enthalten sein können.

Aufgaben

20 Min

3.a Was ist in der Datenbank oder wo versteckt sich die Grippe?

Empfehlungen Lektüre/Videos

4 von 4 — Auf der Suche nach Robert Schuman(n) ¶

Namen von Personen und Orten sind besonders anfällig für OCR-Fehler, da sie nicht in den Wörterbüchern zu finden sind, die zur Erkennung gedruckter Wörter verwendet werden. Wenn also die für die Digitalisierung verwendete Software nicht über ein integriertes Namenswörterbuch verfügt, muss für einen Treffer bei einer Namensabfrage jeder einzelne Buchstabe des Namens korrekt identifiziert worden sein.

	Ressource 1	Ressource 2
Art des Artikels (Ereignis, Meinung, Geschichte aus dem Leben)
Deckt die Sammlung die Jahre ab, in denen sich die Spanische Grippe in Europa ausbreitete?
Gibt es Zeiten mit besonders intensiver Berichterstattung?
Gibt es einen vorherrschenden Rahmen?
Gibt es bestimmte Eigenschaften der Benutzeroberfläche, durch die Ihre Suchergebnisse eingeschränkt werden?

Aus dem Regal ins Netz: Historische Zeitungen im digitalen Zeitalter

Einleitung

S Animation: Aus dem Regal ins Netz

M Aufgaben (4)

1 von 4 — Digitalisierung und wie Computer lesen lernen ¶

Aufgaben

1.a Schrifterkennung

1.b OCR und gotische Schrift

1.c Verbesserung der OCR-Qualität

Empfehlungen Lektüre/Videos

2 von 4 — Mit Artikelsegmentierung die Grippe einfangen ¶

Aufgaben

2.a Einen Artikel zur Spanischen Grippe finden

2.b Suchanfragen zur Spanischen Grippe: andere Länder, andere Reaktionen?

Empfehlungen Lektüre/Videos

3 von 4 — Verwendung digitalisierter Zeitungssammlungen in der Praxis ¶

Aufgaben

3.a Was ist in der Datenbank oder wo versteckt sich die Grippe?

Empfehlungen Lektüre/Videos

4 von 4 — Auf der Suche nach Robert Schuman(n) ¶

Aufgaben

4.a Wie können wir Artikel über „Robert Schuman“ identifizieren?

4.b Artikel über Robert Schuman(n) sammeln

4c. Auf der Suche nach Robert Schuman in Luxemburg

Empfehlungen Lektüre/Videos

Übersicht