Aus dem Regal ins Netz: Historische Zeitungen im digitalen Zeitalter

Eine Lektion zum Thema Digitalisierung und digitale Zeitungen

Zu den Aufgaben
Über diese Lektion S

Einleitung

In dieser Lektion gehen wir darauf ein, wie sich online verfügbare, digitalisierte Zeitungen auf den Umgang mit Zeitungen als historischen Quellen auswirken und welche neuen Fähigkeiten bei der Quellenkritik notwendig sind.

Animation ansehen S

S Animation: Aus dem Regal ins Netz

Eine Animation über die Auswirkungen digitaler Technologie auf Zeitungen als historische Quellen

Von der chinesischen Tinte bis zu digitalisierten Objekten – der technologische Fortschritt eröffnet den Nachrichten von gestern neue Zukunftsperspektiven. In dieser Animation wird auf die Besonderheiten von Zeitungen als historische Quellen eingegangen sowie darauf, wie aus diesen Papierquellen digitale Archive wurden und wie Methoden zur Aufbereitung von Zeitungen ganz neue Möglichkeiten für die Entdeckung von Inhalten eröffnet haben.

Diese Aufgaben erledigen M

M Aufgaben (4)


1 von 4 — Digitalisierung und wie Computer lesen lernen

Der Prozess der Digitalisierung beginnt mit dem Scannen einer physischen Zeitung, wobei von jeder Seite ein Bild erstellt wird. Da Bilder an sich nicht durchsuchbar sind, müssen die Buchstaben des Textes erkennbar gemacht werden. Dafür kommt eine Technik zum Einsatz, die als optische Zeichenerkennung (optical character recognition, OCR) bezeichnet wird. OCR-Software ist in der Lage, das Bild eines Zeichens zu verstehen und es in eine digitale Einheit umzuwandeln, die ein einzelnes Zeichen darstellt.

Dazu sind zwei Einzelschritte erforderlich:

  1. Binarisierung der Farben des Bildes, d. h. die Umwandlung des Bildes einer Seite in nur zwei Farben: Schwarz und Weiß. Dadurch wird das Bild der Seite vereinfacht und der Kontrast zwischen dunklen und hellen Bereichen erhöht, sodass sich die einzelnen Zeichen vom Hintergrund der Seite abheben.
  2. Klassifizierung der Buchstaben. Nachdem die einzelnen Buchstaben voneinander abgegrenzt wurden, müssen sie zu Wörtern zusammengesetzt werden. Dazu vergleicht die Software die erfassten Buchstaben zunächst mit bekannten Schriftarten und wählt die am besten passende Schriftart aus.

Folgende Merkmale können berücksichtigt werden:

  • Handelt es sich um Buchstaben aus einem lateinischen oder arabischen Alphabet?
  • Sind die Buchstaben kursiv oder fett?
  • Ist die Schriftart Times New Roman oder Comic Sans MS?

Mithilfe eines ähnlichen Erkennungsmechanismus wird anschließend die Sprache identifiziert und die gefundenen Wörter werden mit einem entsprechenden Wörterbuch verglichen. Das Ergebnis der OCR-Verarbeitung ist ein transkribierter, maschinenlesbarer Text. Wir haben nun eine digitalisierte Zeitung: das Bild der Seite und ihren Text.

Aufgaben

20 Min

1.a Schrifterkennung

1.b OCR und gotische Schrift

1.c Verbesserung der OCR-Qualität

Empfehlungen Lektüre/Videos

2 von 4 — Mit Artikelsegmentierung die Grippe einfangen

Damit digitalisierte Zeitungen durchsucht werden können, ist ein weiteres Verfahren erforderlich: die Artikelsegmentierung. In Zeitungen werden häufig Texte zu nicht miteinander zusammenhängenden Themen auf derselben Seite veröffentlicht. Zudem sind Artikel häufig in Teilen auf verschiedenen Seiten abgedruckt. Will man eine brauchbare Version eines Artikels finden, muss man verstehen, welche Zeichen und Wörter zu diesem Artikel gehören. Möglich wird dies durch die Technik der Artikelsegmentierung. OCR liefert Informationen darüber, welche Buchstaben und Wörter auf welcher Zeitungsseite vorkommen. Die Artikelsegmentierung, eine Technik, bei der eine Seite in kleinere Einheiten aufgeschlüsselt wird, liefert Informationen darüber, welche Buchstaben und Wörter auf einer Seite zur gleichen Einheit gehören.

Nach OCR und Artikelsegmentierung werden die digitalisierten Zeitungen schließlich der Öffentlichkeit zur Verfügung gestellt. Die extrahierten Texte und Bilder der Zeitungen werden im Internet veröffentlicht und können über eine speziell entwickelte Schnittstelle eingesehen und durchsucht werden. Die Artikelsegmentierung ist jedoch nicht immer Teil des Digitalisierungsprozesses. Als Nutzer bemerkt man dies erst, nachdem man eine Suche durchgeführt hat. Sie werden den Unterschied bemerken, wenn Sie in digitalen Zeitungsarchiven suchen, in denen dieses Prinzip angewandt wurde, und in solchen, in denen es nicht angewandt wurde.

Aufgaben

20 Min

2.a Einen Artikel zur Spanischen Grippe finden

2.b Suchanfragen zur Spanischen Grippe: andere Länder, andere Reaktionen?

Empfehlungen Lektüre/Videos

3 von 4 — Verwendung digitalisierter Zeitungssammlungen in der Praxis

Nachdem Maßnahmen zur Gewährleistung einer guten OCR-Qualität ergriffen wurden, muss auch die Qualität des Textabrufs durch die Suchmaschine und die Interaktion mit dem Nutzer über die Benutzeroberfläche gewährleistet sein. Damit bestimmte Artikel gefunden und gelesen werden können, müssen ein System und eine Schnittstelle entwickelt werden, die es ermöglichen, die Datenbank zu durchsuchen und auf den Speicherort der digitalisierten Zeitungen zuzugreifen. Die Datenbank benötigt daher umfangreiche Informationen über jedes der enthaltenen digitalisierten Objekte. Diese Informationen werden als Metadaten bezeichnet, was wörtlich „Informationen über Daten“ bedeutet. Im Allgemeinen sind die grundlegendsten Angaben bei Büchern und Artikeln der Name des Autors, der Titel der Publikation, das Datum der Veröffentlichung und die Sprache des Dokuments. Bei Zeitungen beschränken sich die verfügbaren Informationen in der Regel auf den Titel der Zeitung und das Datum der Veröffentlichung der jeweiligen Ausgabe.

Damit das gesamte digitalisierte Material in einer Online-Suchumgebung genutzt werden kann, benötigen wir folgende Dinge:

  • eine Datenbank, in der das Ergebnis der Digitalisierung gespeichert wird (das Bild jeder Zeitungsseite, die OCR und die Metadaten),
  • eine Benutzeroberfläche, über die Sie Ihre Anfrage eingeben und die Ergebnisse durchsuchen können,
  • eine Suchmaschine, die Ihre Anfrage von der Benutzeroberfläche empfängt und in der Datenbank nach relevanten Ergebnissen sucht.

Die Ergebnisliste auf Ihrem Bildschirm ist das Resultat der Interaktion zwischen diesen drei Elementen. Fehler oder fehlende Elemente können auf ein Problem bei einem dieser Elemente zurückzuführen sein. Wie wir gesehen haben, kann auch die Digitalisierung selbst zu Fehlern führen. Da wir es mit historischen Texten zu tun haben, ist es außerdem wichtig zu bedenken, dass sich die Schreibweise im Laufe der Zeit geändert haben kann oder dass in der historischen Quelle selbst Schreibfehler enthalten sein können.

Aufgaben

20 Min

3.a Was ist in der Datenbank oder wo versteckt sich die Grippe?

Empfehlungen Lektüre/Videos

4 von 4 — Auf der Suche nach Robert Schuman(n)

Namen von Personen und Orten sind besonders anfällig für OCR-Fehler, da sie nicht in den Wörterbüchern zu finden sind, die zur Erkennung gedruckter Wörter verwendet werden. Wenn also die für die Digitalisierung verwendete Software nicht über ein integriertes Namenswörterbuch verfügt, muss für einen Treffer bei einer Namensabfrage jeder einzelne Buchstabe des Namens korrekt identifiziert worden sein.

Aufgaben

20 Min

4.a Wie können wir Artikel über „Robert Schuman“ identifizieren?

4.b Artikel über Robert Schuman(n) sammeln

4c. Auf der Suche nach Robert Schuman in Luxemburg

Empfehlungen Lektüre/Videos