Topic modelling

Imaginez un bibliothécaire ultra-rapide qui trie des milliers d'articles de presse en piles bien ordonnées par thème, pour parcourir la collection par idées plutôt que par titres.

Qu'est-ce que la modélisation de sujets ?

La modélisation de sujets est une méthode statistique qui regroupe de grands ensembles de textes selon les thèmes qu'ils abordent. Au lieu de définir des catégories à l'avance, un algorithme non supervisé repère les mots qui coapparaissent fréquemment et les rassemble en « sujets ». Chaque sujet est résumé par un court libellé tiré de ses termes les plus représentatifs (p. ex. : mosquée – inauguration – construction – vendredi).

Comment cela fonctionne (3 étapes)

  1. Préparer les textes : Les documents sont passés par OCR et légèrement nettoyés : on retire, par exemple, les mots-outils et l’on réduit les mots à leur forme de base (lemmatisation).
  2. Regrouper les documents similaires : Le système crée pour chaque texte une représentation numérique compacte (un vecteur), compare ces représentations et regroupe les documents qui emploient un langage semblable en sujets.
  3. Étiqueter et scorer : Chaque groupe reçoit un libellé lisible par l’humain à partir de ses principaux termes. Chaque document obtient ensuite :
  • un identifiant de sujet (le groupe qui lui correspond le mieux) ;
  • un libellé (les mots saillants du sujet) ;
  • un score de correspondance indiquant la force de l’appartenance. Certains documents ne correspondent à aucun groupe avec suffisamment de confiance ; ils apparaissent comme non attribués (hors catégorie).

Ce que vous pouvez faire ici

  • Parcourir par thème : Accédez directement à des sujets comme le pèlerinage, la construction de mosquées, l’éducation religieuse, les associations étudiantes ou les associations de femmes.
  • Repérer des tendances : Voyez quels thèmes sont les plus fréquents, comment ils varient selon le pays ou la source et comment l’attention portée à un sujet évolue dans le temps.
  • Accéder aux sources : Chaque sujet renvoie aux articles concernés, avec les dates et les informations de publication.

Bien lire les résultats (bonnes pratiques)

  • Les sujets sont des repères, pas des verdicts. Ils reflètent des régularités dans les mots, plutôt que des catégories éditoriales. Ouvrez toujours les documents.
  • Les libellés sont des raccourcis. Ils résument les termes principaux et restent nécessairement approximatifs.
  • La qualité des données compte. Le bruit d’OCR, les variantes orthographiques et des couvertures inégales selon les pays ou les années peuvent influencer les groupes. Ainsi, des sujets très petits ou très larges peuvent se scinder ou se fusionner lorsque le modèle est actualisé.

Note méthodologique

IWAC utilise un flux de travail algorithmique non supervisé. Pour les documents en français, chaque texte est d’abord converti en résumé numérique compact à l’aide de CamemBERT (un modèle de langue pour le français). Le système compare ensuite ces résumés pour regrouper les textes qui emploient un langage similaire et attribue à chaque document un sujet dominant avec un score d’intensité. Aucune catégorie prédéfinie n’est utilisée. Les métadonnées (pays, date, etc.) servent au filtrage et à la visualisation ; elles ne créent pas les sujets.

Code Python