Index

Métadonnées, contrôle d'autorité et chaîne de traitement des entités assistée par IA

Métadonnées et contrôle d'autorité

Chaque élément de la Collection est décrit à l'aide de termes de la Dublin Core Metadata Initiative (DCMI). IWAC maintient également des fichiers d'autorité en expansion pour les individus, les associations, les évènements, les sujets (Dublin Core "Sujet") et les emplacements (Dublin Core "Couverture spatiale"). Le contrôle d'autorité réduit l'ambiguïté et consolide les variantes de noms.

Limites de l'indexation manuelle et du NLP prêt à l'emploi

Les mots-clés aident à organiser les collections en ligne, mais l'indexation manuelle est coûteuse et difficile à mettre à l'échelle. Le traitement automatique du langage naturel (NLP)—en particulier la reconnaissance d'entités nommées (NER)—aide en identifiant les personnes, les lieux, les organisations et les dates. La NER sous-tend la recherche, l'analyse de réseaux et d'autres flux de travail en humanités numériques. Cependant, les modèles entraînés principalement sur des corpus occidentaux (par exemple, spaCy) omettent souvent des entités africaines et se dégradent en présence d'erreurs de reconnaissance optique de caractères (ROC).

Pourquoi les grands modèles de langage ?

Les grands modèles de langage (LLMs) offrent une alternative prometteuse. Plutôt que de s'appuyer sur des schémas fragiles, ils utilisent le contexte sémantique pour reconnaître des entités malgré le bruit dû à la ROC ou les lacunes des données d'entraînement. Parce qu'ils opèrent au niveau du sens, les LLMs peuvent fournir des transformations plus rapides et plus rentables sans sacrifier la qualité.

Un problème pratique d'appellation

Ces avantages comptent pour la Collection. Les journaux varient les orthographes et inversent souvent l'ordre des noms (p. ex. Karim/Karimou, Aboubacar/Boikary, Aboubacar Fofana/Fofana Aboubacar). Les conventions relatives aux prénoms et aux noms de famille sont flexibles. L'imam de la Grande Mosquée de Lomé à la fin des années 1980, Abdou-Salami Abdou Rahim, apparaît comme "Abdul Salam Abdul Rahim", simplement "Abdou Rahim", et au moins huit autres variantes. Les modèles classiques risquent de scinder une même figure historique en de multiples entrées.

Un pipeline hybride, assisté par IA

Pour relever ces défis, la Collection associe une extraction pilotée par l'IA à une supervision humaine.

Étape 1 : extraction et normalisation

Un LLM, guidé par des règles explicites de normalisation, identifie les entités (prompt). Les toponymes sont réduits à une forme essentielle (p. ex., "Royaume d'Arabie Saoudite" devient  "Arabie Saoudite") ; les titres honorifiques sont retirés des noms de personnes (par exemple, "Kassim Mensah" plutôt que "El Hadj Kassim Mensah") ; les noms d'organisations sont saisis en entier plutôt qu'en acronymes ; et la variation d'ordre dans les noms africains est reconnue.

Étape 2 : réconciliation

Les entités extraites par l'IA sont ensuite réconciliées avec les fichiers d'autorité gérés par la Collection. Un script Python attribue des identifiants uniques, signale les cas ambigus pour examen et, en l'absence de correspondance, propose des candidats prudents, classés par niveau de confiance, via un appariement flou, afin d'éclairer la décision humaine. Une priorisation fondée sur la fréquence met en évidence les entités les plus significatives et filtre les informations moins pertinentes.

Étape 3 : consolidation

OpenRefine est utilisé pour consolider les entités. L’expertise humaine demeure essentielle : seules des connaissances historiques peuvent trancher les évolutions, scissions et changements de nom d’organisations.

Étape 4 : enrichissement et mise en lien

Un troisième script Python permet de relier les documents aux notices d'autorité, de mettre à jour les entrées de la Collection avec des liens directs et cliquables, et de transformer un dépôt statique en une base de connaissances interconnectée.

Premiers résultats et accès libre

Bien qu'il en soit encore à un stade précoce, le pipeline a déjà validé 4 400 entités distinctes, un nombre appelé à croître à mesure que la couverture du corpus s'étendra. L'intégralité du code est disponible en accès libre sur GitHub : fmadore/iwac-ai-pipelines.

Pourquoi c'est important

Le pipeline permet de maintenir l'historien dans la boucle tout en permettant la découverte et la normalisation des entités dans des corpus non occidentaux, où la reconnaissance d'entités nommées standard échoue souvent. Les résultats ne répondent pas toujours aux normes archivistiques professionnelles ; l'alternative réaliste est souvent l'absence totale de traitement.

Des entités fiables et des identifiants réconciliés alimentent également les applications de visualisation de la Collection. Elles permettent de naviguer entre les documents, d'effectuer une analyse de réseaux historiquement pertinente et de réaliser des recherches plus précises. Ces gains sont efficaces sur le plan computationnel et solides sur le plan interprétatif.

Prochaines étapes

Le développement se concentrera sur l'enrichissement automatique des entités, en particulier des personnes et des organisations ouest-africaines absentes des principales bases de connaissances. À partir des articles mentionnant chaque entité, les LLM généreront des notices descriptives concises, ainsi que des résumés biographiques le cas échéant. Cette approche étendra le pipeline de la reconnaissance à la contextualisation, renforcera les notices d'autorité et permettra d'effectuer des explorations thématiques à grande échelle.

Remarque : l'index des métadonnées demeure incomplet. Nous vous invitons également à utiliser l'option de recherche en texte intégral pour interroger la base de données.