💠09.TAL 3

10 mars 2022

Analyses de spécificité

Il suffit habituellement de lire un texte pour en extraire du sens. Mais comment faire quand on veut en analyser des masses. Je vais vous en faire une démontration avec trois techniques.

Les deux premières permettent de faire ressortir les termes les plus caractéristiques ou spécifiques d'un texte ou d'un corpus donné :

  • avec les résiduels du khi carré, dans les cas où on n'a que deux textes ou deux corpus (il s'agit alors de comparer l'un avec l'autre);

  • avec l'analyse TF/IDF dans les cas où on a plusieurs textes ou plusieurs corpus (il s'agit alors de comparer l'un avec l'ensemble). En voici d'ailleurs un exemple récent, publié au début 2022 par ProPublica.

La troisième technique est appelée modélisation thématique (ou topic modeling) et consiste à identifier les sujets dont il est question dans un texte ou un corpus donné.

Dernière mise à jour