09.TAL 2 + Brainstorm
7 mars 2024
On poursuit notre exploration du TAL en apprenant comment extraire du texte de fichiers PDF.
Analyses de spécificité
Nous en profiterons aussi pour aborder les analyses de spécificité. Il suffit habituellement de lire un texte pour en extraire du sens. Mais comment faire quand on veut en analyser des masses. Je vais vous en faire une démontration avec trois techniques.
Les deux premières permettent de faire ressortir les termes les plus caractéristiques ou spécifiques d'un texte ou d'un corpus donné :
avec les résiduels du khi carré, dans les cas où on n'a que deux textes ou deux corpus (il s'agit alors de comparer l'un avec l'autre);
avec l'analyse TF/IDF dans les cas où on a plusieurs textes ou plusieurs corpus (il s'agit alors de comparer l'un avec l'ensemble). En voici d'ailleurs un exemple récent, publié au début 2022 par ProPublica.
La troisième technique est appelée modélisation thématique (ou topic modeling) et consiste à identifier les sujets dont il est question dans un texte ou un corpus donné.
Nous en profiterons aussi pour commencer à discuter de votre travail final. Cette discussion collective est nécessaire pour ne pas que vous vous marchiez sur les pieds, mais aussi pour que je puisse évaluer le réalisme de vos idées et vous aider à le réajuster (à la baisse ou à la hausse) au besoin.
La présence à cette séance est obligatoire. Votre absence se traduit par une perte d'un cran de votre note finale (si vous aviez un A, par exemple, l'absence à une séance de tutorat diminue cette note à un A-).
Enfin, vous aurez un quatrième devoir à rendre après la relâche afin de mettre en pratique ce que nous avons vu sur le TAL (devoirTAL.ipynb). Plus de détails dans la section Travaux.
Dernière mise à jour