De l’étagère à la Toile : l’étude de la presse écrite à l’ère numérique

Leçon sur la numérisation des journaux et l’étude de leurs représentations digitales

accèder aux exercices
à propos de la leçon S

Introduction

Cette leçon traite de la façon dont la numérisation de la presse écrite et son accessibilité en ligne changent l’utilisation de celle-ci comme source historique par les historiens et les historiennes, et demandent de nouvelles compétences pour appliquer la critique des sources.

regarder l'animation S

S Animation: De l’étagère à la Toile

Un film d’animation sur l’impact des technologies numériques sur la presse écrite en tant que source historique

De l’encre de Chine aux objets numérisés, les évolutions technologiques créent un nouvel avenir pour les nouvelles d’hier. Ce film d’animation illustre les particularités des journaux en tant que sources historiques, comment ces sources papier ont été transformées en archives numériques et les manières dont les méthodes d’enrichissement de la presse numérisée ont ouvert de nouvelles voies pour découvrir leur contenu

compléter les exercices M

M Exercices (4)


1 sur 4 — La numérisation et comment les ordinateurs apprennent-ils à lire ?

Le processus de numérisation commence par la numérisation d’un journal papier, afin de produire une image de chaque page. Étant donné qu’il est impossible d’effectuer une recherche sur une image, les lettres du texte doivent être rendues reconnaissables. Cela se fait grâce à une technique connue sous le nom de reconnaissance optique de caractères (OCR), à l’aide d’un logiciel capable de comprendre l’image d’un caractère et de la transformer en une unité numérique représentant un caractère unique.

Pour ce faire, deux sous-étapes doivent être réalisées :

  1. La binarisation des couleurs de l’image, c’est-à-dire la transformation de l’image d’une page en seulement deux couleurs : noir et blanc. Cette étape simplifie l’image de la page et augmente le contraste entre les sections sombres et claires, ce qui permet aux caractères individuels de se démarquer de l’arrière-plan de la page.

  2. La classification des lettres. Une fois que les caractères individuels ont été délimités, ils doivent être assemblés en mots. Pour ce faire, le logiciel compare d’abord les lettres capturées aux polices connues et sélectionne celle qui est la plus susceptible de convenir.

Voici des caractéristiques qu’il convient de prendre en compte :

  • Ces lettres viennent-elles d’un alphabet latin ou arabe ?
  • Ces lettres sont-elles en italique ou en gras ?
  • La police est-elle Times New Roman ou Comic Sans MS ?

Un mécanisme de détection similaire identifie ensuite la langue et compare les mots trouvés à un dictionnaire correspondant. Le résultat du traitement OCR est un texte transcrit lisible par une machine. Ainsi, le journal est désormais numérisé : nous disposons à la fois de l’image de la page et son texte.

Instructions

20 min

1.a Reconnaissance des polices

1.b OCR et police gothique

1.c Amélioration de la qualité de l’OCR

Suggestions de lectures/vidéos

2 sur 4 — Attraper la grippe grâce à la segmentation de texte

Pour permettre les recherches dans les journaux numérisés, un processus supplémentaire s’avère nécessaire : la segmentation du texte en articles. Les journaux ont tendance à publier sur la même page des textes dont les sujets ne sont pas liés. De plus, les articles uniques sont souvent divisés en parties imprimées sur différentes pages. Pour récupérer une version exploitable d’un article, il est nécessaire de comprendre quels caractères et mots appartiennent au même article. C’est ce que permet la technique de segmentation du texte en blocs qui correspondent aux articles. Alors que l’OCR nous indique les lettres et mots qui apparaissent sur une page du journal, la segmentation du texte qui consiste à réduire une page en unités plus petites nous indique les lettres et mots d’une page qui appartiennent à la même unité.

Après avoir appliqué l’OCR et la segmentation du texte en articles, la dernière étape consiste à mettre les journaux numérisés à la disposition du public. Les textes extraits et les images des journaux sont publiés sur la Toile et peuvent être consultés et faire l’objet d’une recherche à l’aide d’une interface soigneusement conçue. L’application de la segmentation de texte n’est cependant pas toujours comprise dans le processus de numérisation et un utilisateur ne le remarque qu’après avoir effectué une recherche. Lors de vos recherches dans les archives de journaux numériques, vous remarquerez la différence quand ce principe a été appliqué ou non.

Instructions

20 min

2.a Comment trouver un article qui traite de la grippe espagnole

2.b Requêtes sur la grippe espagnole : différents pays, différentes réactions ?

Suggestions de lectures/vidéos

3 sur 4 — Using digitised newspaper collections in practice

Après la prise de mesures pour garantir une bonne qualité de l’OCR, la qualité de la récupération de texte par le moteur de recherche et l’interaction avec le public par l’intermédiaire de l’interface représentent une autre préoccupation. Pour trouver et lire des articles spécifiques, un système et une interface doivent être conçus pour vous permettre d’interroger la base de données et d’accéder à l’endroit où sont stockés les journaux numérisés. La base de données doit donc disposer d’informations riches sur chacun des objets numérisés qu’elle contient. Ces informations sont appelées métadonnées, littéralement « informations sur les données ». En général, les éléments les plus fondamentaux pour les livres et les articles sont l’auteur ou l’autrice, le titre de la publication, la date de publication et la langue du document. En ce qui concerne les journaux, les informations disponibles se limitent généralement au titre du journal et à la date de publication du numéro.

Pour transformer tout le matériel numérisé en un environnement de recherche en ligne, nous avons besoin des éléments suivants :

  • une base de données où sont stockés les résultats de la numérisation (l’image de chaque page de journal, l’OCR et les métadonnées)
  • une interface où vous pouvez introduire votre requête et parcourir les résultats
  • un moteur de recherche qui recevra votre requête depuis l’interface et interrogera la base de données pour trouver des résultats pertinents.

La liste des résultats qui apparaît sur votre écran est le produit de l’interaction entre ces trois éléments. Les erreurs ou éléments manquants peuvent résulter d’un problème lié à l’un de ces éléments. Comme nous l’avons vu, la numérisation elle-même peut également générer des erreurs. En outre, il est important de garder à l’esprit que, puisqu’il s’agit de textes historiques, l’orthographe peut avoir changé au fil du temps ou des fautes d’orthographe peuvent s’être glissées dans la source historique elle-même.

Instructions

20 min

3.a Que contient la base de données ou où se cache la grippe ?

Suggestions de lectures/vidéos

4 sur 4 — À la recherche de Robert Schuman(n)

Les noms de personnes et de lieux sont davantage sujets aux erreurs d’OCR, car ils ne peuvent pas être trouvés dans les dictionnaires utilisés pour reconnaître les mots imprimés. Cela signifie que si le logiciel utilisé pour la numérisation n’a pas intégré de dictionnaire de noms, une correspondance précise pour la requête d’un nom repose entièrement sur l’identification correcte de chaque lettre du nom.

Instructions

20 min

4.a Identifier les articles sur « Robert Schuman »

4.b Collecte d’articles sur Robert Schuman(n)

4c. À la recherche de Robert Schuman au Luxembourg

Suggestions de lectures/vidéos