💠09.Machine learning + TAL 3

9 mars 2023

Conférence

Dans la première moitié de la séance, ma collègue Marie-Jean Meurs, du département d'informatique, viendra vous faire une courte présentation sur l'intelligence artificielle en général, l'apprentissage automatique (ou « machine learning ») en particulier.

Dans la seconde moitié, nous ferons un tour d'horizon de différents outils d'intelligence artificielle avec lesquels il est possible d'interagir programmatiquement :

  • Google Cloud ML (pour automatiser la traduction, par exemple); mais aussi comment interagir avec des Google sheets

  • Microsoft Azure (pour faire de la reconnaissance d'images)

  • OpenAI (pour entraîner des modèles de texte avec ceux d'un•e auteur•trice particulier•ère)

  • Etc.

Prenez des notes sur ce qui pourrait vous être utile pour votre travail final. Je vous aiderai à harnacher l'un ou l'autre de ces outils dans l'une des séances de tutorat de la fin de la session.

Analyses de spécificité

Nous en profiterons aussi pour conclure avec le TAL. Il suffit habituellement de lire un texte pour en extraire du sens. Mais comment faire quand on veut en analyser des masses. Je vais vous en faire une démontration avec trois techniques.

Les deux premières permettent de faire ressortir les termes les plus caractéristiques ou spécifiques d'un texte ou d'un corpus donné :

  • avec les résiduels du khi carré, dans les cas où on n'a que deux textes ou deux corpus (il s'agit alors de comparer l'un avec l'autre);

  • avec l'analyse TF/IDF dans les cas où on a plusieurs textes ou plusieurs corpus (il s'agit alors de comparer l'un avec l'ensemble). En voici d'ailleurs un exemple récent, publié au début 2022 par ProPublica.

La troisième technique est appelée modélisation thématique (ou topic modeling) et consiste à identifier les sujets dont il est question dans un texte ou un corpus donné.

Dernière mise à jour