👅06.TAL 1

17 février 2022

Parmi les autres applications de la programmation qui peuvent être pertinentes pour les journalistes, on trouve ce qu'on appelle le traitement automatique du langage naturel (ou des langues naturelles; TALN, qu'on raccourcit aussi à TAL). Vous rencontrerez, en anglais, l'expression NLP pour Natural Language Processing.

Il arrive souvent, en journalisme, qu'on veuille extraire du sens d'un important corpus de texte (des articles ou chroniques, des transcriptions de débats parlementaires, des publications Facebook, etc.). C'est possible, grâce au TAL.

Avant de procéder, on va faire un peu de théorie sur cette discipline en abordant les différentes étapes de pré-traitement qu'on peut faire subir à un corpus de textes et en définissant certaines notions telles que :

  • l'analyse lexicale (ou tokenization)

  • la lemmatisation (ou lemmatization)

  • la racinisation (ou stemming)

  • l'étiquettage morpho-syntaxique (ou part-of-speech tagging)

  • les mots-vides (ou stopwords)

  • les entités nommées (ou named entities)

  • l'analyse de sentiment (ou sentiment analysis)

Puis, on va apprendre comment analyser un corpus de texte à l'aide d'un outil relativement nouveau appelé spaCy.

On va aller au-delà du simple nuage de mots. Car comme le disait le linguiste britannique John R. Firth, un mot seul n'est rien sans son contexte. Les mots seuls peuvent avoir plusieurs significations. C'est en regardant quels sont les mots qui se trouvent avant et après qu'ils prennent tout leur sens.

« You shall know a word by the company it keeps »

-- John Rupert Firth (1890-1960)

Dernière mise à jour