Partie 4 : Natural Language Processing (NLP)

Cette partie du cours est consacrée à l’analyse des données textuelles avec des exemples de 📚 pour s’amuser.

Dans un premier temps, cette partie propose d’explorer bag of words pour montrer comment transformer un corpus en outil propre à une analyse statistique :

  • Elle propose d’abord une introduction aux enjeux du nettoyage des données textuelles à travers l’analyse du Comte de Monte Cristo d’Alexandre Dumas ici
  • Elle propose une série d’exercices sur le nettoyage de textes à partir des oeuvres d’Edgar Allan Poe, Mary Shelley et H.P. Lovecraft.

Ensuite, nous proposerons d’explorer une approche alternative, prenant en compte le contexte d’apparition d’un mot. L’introduction à la Latent Dirichlet Allocation sera l’occasion de présenter la modélisation de documents sous la forme de topics.

Enfin, nous introduirons aux enjeux de la transformation de champs textuels sous forme de vecteurs numériques. Pour cela, nous présenterons le principe de Word2Vec qui permet ainsi, par exemple, malgré une distance syntaxique importante, de dire que sémantiquement Homme et Femme sont proches.

Contenu de la partie

  • Quelques éléments pour comprendre les enjeux du NLP

    Les corpus textuels étant des objets de très grande dimension où le ratio signal/bruit est faible, il est nécessaire de mettre en oeuvre une série d’étapes de nettoyage de texte. Ce chapitre va explorer quelques méthodes classiques de nettoyage en s’appuyant sur le Comte de Monte Cristo d’Alexandre Dumas.

  • Nettoyer un texte: des exercices pour découvrir l'approche bag-of-words

    Ce chapitre continue de présenter l’approche de nettoyage de données du NLP en s’appuyant sur le corpus de trois auteurs anglo-saxons : Mary Shelley, Edgar Allan Poe, H.P. Lovecraft. Dans cette série d’exercice nous mettons en oeuvre de manière plus approfondie les différentes méthodes présentées précedemment.

  • Latent Dirichlet Allocation (LDA)

    Le modèle Latent Dirichlet Allocation (LDA) est un modèle probabiliste génératif qui permet de décrire des collections de documents de texte ou d’autres types de données discrètes. La LDA fait partie d’une catégorie de modèles appelés “topic models”, qui cherchent à découvrir des structures thématiques cachées dans des vastes archives de documents.

  • Méthodes de vectorisation : comptages et word embeddings

    Pour pouvoir utiliser des données textuelles dans des algorithmes de machine learning, il faut les vectoriser, c’est à dire transformer le texte en données numériques. Dans ce TP, nous allons comparer différentes méthodes de vectorisation, à travers une tâche de prédiction : peut-on prédire un auteur littéraire à partir d’extraits de ses textes ? Parmi ces méthodes, on va notamment explorer le modèle Word2Vec, qui permet d’exploiter les structures latentes d’un texte en construisant des word embeddings (plongements de mots).

  • Exercices supplémentaires

    Des exercices supplémentaires pour pratiquer les concepts du NLP