Nachdem Maßnahmen zur Gewährleistung einer guten OCR-Qualität ergriffen wurden, muss auch die Qualität des Textabrufs durch die Suchmaschine und die Interaktion mit dem Nutzer über die Benutzeroberfläche gewährleistet sein. Damit bestimmte Artikel gefunden und gelesen werden können, müssen ein System und eine Schnittstelle entwickelt werden, die es ermöglichen, die Datenbank zu durchsuchen und auf den Speicherort der digitalisierten Zeitungen zuzugreifen. Die Datenbank benötigt daher umfangreiche Informationen über jedes der enthaltenen digitalisierten Objekte. Diese Informationen werden als Metadaten bezeichnet, was wörtlich „Informationen über Daten“ bedeutet. Im Allgemeinen sind die grundlegendsten Angaben bei Büchern und Artikeln der Name des Autors, der Titel der Publikation, das Datum der Veröffentlichung und die Sprache des Dokuments. Bei Zeitungen beschränken sich die verfügbaren Informationen in der Regel auf den Titel der Zeitung und das Datum der Veröffentlichung der jeweiligen Ausgabe.
Damit das gesamte digitalisierte Material in einer Online-Suchumgebung genutzt werden kann, benötigen wir folgende Dinge:
Die Ergebnisliste auf Ihrem Bildschirm ist das Resultat der Interaktion zwischen diesen drei Elementen. Fehler oder fehlende Elemente können auf ein Problem bei einem dieser Elemente zurückzuführen sein. Wie wir gesehen haben, kann auch die Digitalisierung selbst zu Fehlern führen. Da wir es mit historischen Texten zu tun haben, ist es außerdem wichtig zu bedenken, dass sich die Schreibweise im Laufe der Zeit geändert haben kann oder dass in der historischen Quelle selbst Schreibfehler enthalten sein können.
Für diese Aufgabe müssen Sie einen Ordner mit verschiedenen Arten von Daten herunterladen, damit Sie sich ansehen können, wie die Dateien aussehen, wenn sie in der Datenbank gespeichert sind.
| Typ 1 |
| Typ 2 |
| Typ 3 |
| Typ 4 |