Verwendung digitalisierter Zeitungssammlungen in der Praxis

Nachdem Maßnahmen zur Gewährleistung einer guten OCR-Qualität ergriffen wurden, muss auch die Qualität des Textabrufs durch die Suchmaschine und die Interaktion mit dem Nutzer über die Benutzeroberfläche gewährleistet sein. Damit bestimmte Artikel gefunden und gelesen werden können, müssen ein System und eine Schnittstelle entwickelt werden, die es ermöglichen, die Datenbank zu durchsuchen und auf den Speicherort der digitalisierten Zeitungen zuzugreifen. Die Datenbank benötigt daher umfangreiche Informationen über jedes der enthaltenen digitalisierten Objekte. Diese Informationen werden als Metadaten bezeichnet, was wörtlich „Informationen über Daten“ bedeutet. Im Allgemeinen sind die grundlegendsten Angaben bei Büchern und Artikeln der Name des Autors, der Titel der Publikation, das Datum der Veröffentlichung und die Sprache des Dokuments. Bei Zeitungen beschränken sich die verfügbaren Informationen in der Regel auf den Titel der Zeitung und das Datum der Veröffentlichung der jeweiligen Ausgabe.

Damit das gesamte digitalisierte Material in einer Online-Suchumgebung genutzt werden kann, benötigen wir folgende Dinge:

eine Datenbank, in der das Ergebnis der Digitalisierung gespeichert wird (das Bild jeder Zeitungsseite, die OCR und die Metadaten),
eine Benutzeroberfläche, über die Sie Ihre Anfrage eingeben und die Ergebnisse durchsuchen können,
eine Suchmaschine, die Ihre Anfrage von der Benutzeroberfläche empfängt und in der Datenbank nach relevanten Ergebnissen sucht.

Die Ergebnisliste auf Ihrem Bildschirm ist das Resultat der Interaktion zwischen diesen drei Elementen. Fehler oder fehlende Elemente können auf ein Problem bei einem dieser Elemente zurückzuführen sein. Wie wir gesehen haben, kann auch die Digitalisierung selbst zu Fehlern führen. Da wir es mit historischen Texten zu tun haben, ist es außerdem wichtig zu bedenken, dass sich die Schreibweise im Laufe der Zeit geändert haben kann oder dass in der historischen Quelle selbst Schreibfehler enthalten sein können.

Verwendung digitalisierter Zeitungssammlungen in der Praxis

Aufgaben

3.a Was ist in der Datenbank oder wo versteckt sich die Grippe? | 20 Min

Empfehlungen Lektüre/Videos