Méthodologie

Méthodologie

Pour le dire simplement, les humanités numériques sont des disciplines qui intègrent les technologies de l’information aux humanités. Cependant, il ne s’agit pas seulement d’appliquer des méthodes et outils informatiques aux questions et discours existants. Les humanités numériques ouvrent également de nouvelles perspectives, rendues possibles par l’évolution des technologies de l’information.

M. Thaller, „Digital Humanities als Wissenschaft“, in Digital Humanities: Eine Einführung, F. Jannidis, H. Kohle, und M. Rehbein, Hrsg. Stuttgart: J.B. Metzler, 2017, S. 13–18. doi: 10.1007/978-3-476-05446-3_2

Vous trouverez ci-dessous les méthodes pertinentes à notre projet énumérées et expliquées plus en détail :

Préparation et OCR

Nous avons utilisé la reconnaissance optique de caractères (OCR) pour détecter et convertir le texte des versions numériques de certains livres. Bien que certaines livres de contes soient déjà disponibles en texte intégral, il a parfois été nécessaire d’utiliser l’OCR en raison de l’ancienneté des ouvrages, des polices de caractères difficiles à reconnaître, et d’autres obstacles. À cette fin, nous avons principalement employé des outils open source comme OCR4all, ainsi que le logiciel PDFReaderPro. Lors de la préparation et de l’application de l’OCR, nous avons rencontré divers problèmes de reconnaissance.

Cinq types d’erreurs typiques ont été identifiés au cours de la correction des textes reconnus.

  • Premièrement, les erreurs les plus fréquentes concernaient des lettres individuelles : Des exemples sont « s » comme « ſ », « z » comme « ʒ », « k » qui a été reconnu comme « t », « K » comme « S » et « I » comme « J ».
  • De même, des erreurs de reconnaissance affectaient les signes de ponctuation ; par exemple, les guillemets doubles en bas de ligne étaient souvent interprétés comme une double virgule, et les traits d’union « – » apparaissaient parfois comme « = ».
  • Un troisième type d’erreur concernait des mots individuels : certains noms de lieux longs ou inhabituels étaient parfois divisés en plusieurs mots.
  • Des erreurs de détection se produisaient aussi sur les pages blanches ou les petits motifs décoratifs, avec des éléments décoratifs ou pages vierges reconnus comme « ttttttt », « 000 », « 088 », etc.
  • Enfin, des erreurs affectaient la structure du texte, entraînant parfois la séparation incorrecte d’une section en deux parties ou plus.

Pour la correction des mots incorrects, nous avons utilisé l’outil Duden-Mentor, qui dispose d’un vaste corpus couvrant le vocabulaire de nombreux domaines.

Cependant, ce logiciel détecte parfois des erreurs inexistantes, notamment concernant les majuscules et les minuscules ou certaines lettres. Pour valider davantage, nous avons chargé les mots dans l’IDE PyCharm et créé un script Python pour vérifier l’orthographe. En cas de doute après ces étapes, une vérification manuelle restait nécessaire.

Analyseur syntaxique (Parser) et localisation

Le terme « analyseur syntaxique » est couramment utilisé en informatique et en programmation pour désigner un programme ou un outil qui analyse les entrées et les convertit en structures de données. Les analyseurs jouent un rôle essentiel en aidant les programmes à interpréter et traiter divers types de données d’entrée.

Dans le cadre de ce projet, un analyseur auto-implémenté a été utilisé pour structurer les textes de la conte, après avoir préparé les données en sortie. Cet analyseur intègre des fonctionnalités telles que le nettoyage des lignes blanches et l’extraction d’informations spécifiques pour compiler les ensembles de données. Il est constitué de deux parties principales : la première identifie le début de chaque nouvelle conte en reconnaissant les titres, tandis que la seconde utilise des expressions régulières pour supprimer les lignes vides et non pertinentes et détecter les sauts de page, lesquels sont ensuite sauvegardés. Ce processus permet de générer des fichiers prêts à être utilisés pour la structure XML et la création de bases de données dans les étapes suivantes.

Après cette analyse, des lieux ont été ajoutés aux légendes. Dans certains cas, des répertoires géographiques présents dans les livres ont pu être exploités. Pour les autres contes, un script Python a été développé pour extraire toutes les mentions de localisation, en s’appuyant sur la bibliothèque NER (Named Entity Recognition). Pour chaque lieu identifié, la mention la plus fréquente a été retenue et définie comme localisation principale. Ensuite, des coordonnées ont été automatiquement attribuées aux lieux en utilisant les nomenclatures allemandes et françaises.

TEI et base de données

La Text Encoding Initiative (TEI) est une organisation à but non lucratif regroupant des institutions universitaires, des projets de recherche et des chercheurs du monde entier. Elle élabore et maintient un ensemble de directives pour l’encodage numérique des textes. Ces directives définissent des encodages lisibles par machine, destinés aux sciences humaines, aux sciences sociales et à la linguistique.

Dans ce projet, le codage TEI a été utilisé pour structurer, numériser et rendre interopérables les différentes contes. La norme TEI fournit un ensemble d’éléments et d’attributs permettant de décrire la structure et les caractéristiques linguistiques des textes. En pratique, des <en-têtes TEI> et <body> ont été générés automatiquement à l’aide de la bibliothèque TreeElement dans un script Python, tandis que les sections <front> et <back> ont été encodées manuellement pour assurer une description complète de chaque segment du texte.

Le projet a également intégré plusieurs systèmes pour rendre les œuvres accessibles au public sur le site web, permettant une interaction et un partage de données fluide. Ainsi, une base de données relationnelle MySQL, largement utilisée pour le stockage et la gestion des données web, a été implémentée. Cela a permis de proposer diverses interfaces et formats de données, facilitant la consultation des œuvres en ligne.

Site web et visualisation

Ce projet a été conçu et géré à l’aide du système de gestion de contenu WordPress.

Au départ, nous avions envisagé d’utiliser Typo3 (un autre CMS) pour la présentation des contes, inspirés par un module suivi le semestre précédent, où Typo3 était présenté comme un outil propice au travail collaboratif. Cet aspect de collaboration était essentiel pour notre équipe, dont la moitié manquait d’expérience en développement web, et justifiait l’utilisation d’un site web dynamique. Cependant, en avançant dans le projet, nous avons constaté que certaines fonctionnalités essentielles, comme la visualisation des origines des légendes sur une carte, n’étaient pas réalisables de manière satisfaisante avec Typo3. Nous avons donc exploré d’autres options et déterminé que WordPress répondait mieux à nos besoins. Cette transition nous a permis de réintégrer les fonctionnalités déjà développées avec Typo3, tout en répondant aux nouvelles exigences, grâce à une communication fluide et des ajustements réguliers entre les deux outils.