Verwendung digitalisierter Zeitungssammlungen in der Praxis

Nachdem Maßnahmen zur Gewährleistung einer guten OCR-Qualität ergriffen wurden, muss auch die Qualität des Textabrufs durch die Suchmaschine und die Interaktion mit dem Nutzer über die Benutzeroberfläche gewährleistet sein. Damit bestimmte Artikel gefunden und gelesen werden können, müssen ein System und eine Schnittstelle entwickelt werden, die es ermöglichen, die Datenbank zu durchsuchen und auf den Speicherort der digitalisierten Zeitungen zuzugreifen. Die Datenbank benötigt daher umfangreiche Informationen über jedes der enthaltenen digitalisierten Objekte. Diese Informationen werden als Metadaten bezeichnet, was wörtlich „Informationen über Daten“ bedeutet. Im Allgemeinen sind die grundlegendsten Angaben bei Büchern und Artikeln der Name des Autors, der Titel der Publikation, das Datum der Veröffentlichung und die Sprache des Dokuments. Bei Zeitungen beschränken sich die verfügbaren Informationen in der Regel auf den Titel der Zeitung und das Datum der Veröffentlichung der jeweiligen Ausgabe.

Damit das gesamte digitalisierte Material in einer Online-Suchumgebung genutzt werden kann, benötigen wir folgende Dinge:

  • eine Datenbank, in der das Ergebnis der Digitalisierung gespeichert wird (das Bild jeder Zeitungsseite, die OCR und die Metadaten),
  • eine Benutzeroberfläche, über die Sie Ihre Anfrage eingeben und die Ergebnisse durchsuchen können,
  • eine Suchmaschine, die Ihre Anfrage von der Benutzeroberfläche empfängt und in der Datenbank nach relevanten Ergebnissen sucht.

Die Ergebnisliste auf Ihrem Bildschirm ist das Resultat der Interaktion zwischen diesen drei Elementen. Fehler oder fehlende Elemente können auf ein Problem bei einem dieser Elemente zurückzuführen sein. Wie wir gesehen haben, kann auch die Digitalisierung selbst zu Fehlern führen. Da wir es mit historischen Texten zu tun haben, ist es außerdem wichtig zu bedenken, dass sich die Schreibweise im Laufe der Zeit geändert haben kann oder dass in der historischen Quelle selbst Schreibfehler enthalten sein können.

Aufgaben

Für diese Aufgabe müssen Sie einen Ordner mit verschiedenen Arten von Daten herunterladen, damit Sie sich ansehen können, wie die Dateien aussehen, wenn sie in der Datenbank gespeichert sind.

3.a Was ist in der Datenbank oder wo versteckt sich die Grippe? | 20 Min

  • Rufen Sie Historical Newspapers of Luxembourg auf
  • Scrollen Sie zum Ende der Seite.
  • Laden Sie das „Starter Pack“ herunter. Dabei handelt es sich um ein Paket für Benutzer, die zum ersten Mal mit digitalisierten Zeitungen arbeiten. Es enthält die Nachrichten von 5 Tagen aus 5 verschiedenen Zeitungen, insgesamt 22 Seiten.
  • Öffnen und entpacken Sie die Zip-Datei.
  • Öffnen Sie einen der Ordner,
  • Sie sehen 4 Dateitypen, die für die Darstellung historischer Zeitungen erforderlich sind. Um welche Dateitypen handelt es sich?
Typ 1  
Typ 2  
Typ 3  
Typ 4  

Empfehlungen Lektüre/Videos