Cours TAL

Cours de Traitement Automatique des Langues

HEIG-VD, semestre de printemps 2018/2019, 3ème année bachelor en TIC : Informatique ou Télécommunications. Voir aussi la fiche TAL sur GAPS.

L’assistant du cours est M. Quentin Gliosca.

Les cours et labos ont lieu les mardis de 13h15 à 16h30 en salle K03.

Schéma du cours de TAL

Le cours commencera par une introduction et un aperçu des données du TAL. Nous présenterons ensuite une série de méthodes de traitement de la langue : analyse des mots (catégories grammaticales), analyse syntaxique, analyse sémantique (basée sur les dictionnaires, puis sur les statistiques). Nous parlerons ensuite de l’évaluation des systèmes de TAL. Nous étudierons ensuite plusieurs applications : extraction de mots clés, classification des documents, analyse des sentiments, et modèles de langage. Nous donnerons enfin des perspectives sur plusieurs autres applications.

Planning

N. Jour Cours (1h30) Laboratoire (1h30) Lectures possibles
1 19.02 Introduction
Motivation et applications du TAL. Niveaux d’analyse des textes. Organisation du cours de TAL.
Labo 1 : Prise en main de la plateforme NLTK, en Python, avec des notebooks Jupyter, en local ou sur Google Colab. Chapitre1 de Jurafsky et Martin et du livre NLTK.
Analyse des mots et des phrases (morphologie et syntaxe)
2 26.02 Le rôle des données en TAL. Les alphabets et leur encodage informatique. La segmentation en mots et en phrases Exercices sur la segmentation en NLTK et les encodages de caractères (fin Labo 1) Introduction à Unicode ou article de P. Andries 2003
Sur la segmentation : SLP3, Sec. 2.3 ; FSNLP, Sec. 4.2.
 3 5.03 L’analyse des mots : lemmes et catégories grammaticales (part-of-speech tagging) Labo 2 : Comparaison d’étiqueteurs morpho-syntaxiques (POS taggers) dans NLTK, en anglais et en français.
(new data here)
POS : SLP3, Ch. 10 (ou SLP2, Ch. 5) ; FSNLP, Ch. 10.
4 12.03 L’analyse syntaxique des phrases (parsing) Suite et fin du travail sur le Labo 2. Début du Labo 3 sur l’analyse syntaxique. SLP3, Ch. 11, 12 et 13 (ou SLP2, Ch. 12, 13 et 14) ; HCL, Ch. 4 ; FSNLP, Sec. 3.2 (grammaires) et Ch. 11 et 12.
5 19.03 Fin du cours sur l’analyse syntaxique Labo 3 : analyse syntaxique
Analyse sémantique (formelle ou statistique)
6 26.03

La reconnaissance des entités nommées Labo : Évaluation comparative de systèmes de NER SLP2, Sec 22.1 ou SLP3, Ch. 17 et Sec. 21.1, HCL, Sec. 18.3.
7 2.04 Les relations de coréférence dans les textes et leur résolution Labo : Résolution des pronoms
SLP2, Ch. 21 ; HCL Sec. 21.4.
8 9.04 Représentation vectorielle des mots dans word2vec Labo : Prise en main de word2vec (comparaison de modèles pré-entraînés avec d’autres entraînés localement : application à l’analogie des concepts) SLP3, Ch. 16.
9 16.04 Modélisation statistique du sens des mots en contexte : information mutuelle, espaces latents Fin du Labo SLP3, Ch. 15 et 16.
Church & Hanks 1990.
19-28.4 Vacances de Pâques
Applications du TAL
10 30.04 Dictionnaires sémantiques: WordNet et la désambiguïsation lexicale Labo : Évaluation de deux méthodes de WSD: algorithme de Lesk et distance word2vec  SLP3, Ch. 17.
11 7.05 Travail écrit 2 (1 heure) — à confirmer
Extraction de mots-clés à partir de documents (1 h.)
Exercices avec NLTK
12 14.05 Correction du test 2.
Classification de documents par des méthodes d’apprentissage automatique
Labo : Classification de textes. Witten et al., Data Mining.
FSNLP, Ch. 16 et Sec 15.2.
Manning, Raghavan & Schütze, Ch. 13
13 21.05 Cours à préciser
14 28.05 Modèles de langage à base de n-grammes Sélection des attributs
Fin du labo
SLP3 (ou SLP2), Ch. 4
15 4.06 Analyse des sentiments ou opinions Analyse des critiques de films et la détermination des meilleurs traits SLP3, Ch. 18.
16 11.06 Conclusion du cours de TAL
– perspectives sur d’autres applications
– méthodologie du TAL et évaluation
SLP3, Ch. 26 à 30 ; FSNLP, Partie IV ; HCL, Partie IV.
Popescu-Belis 2007.

Références
  • “SLP2” se réfère à : Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, by Dan Jurafsky and James H. Martin, 2nd edition, Prentice-Hall, Upper Saddle River, NJ, USA, 2008.
  • “NLTK” se réfère à : Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit, by Steven Bird, Ewan Klein, and Edward Loper, O’Reilly, Sebastopol, CA, USA, 2009.
  • “FSNLP” se réfère à un livre plus ancien mais toujours d’actualité : Foundations of Statistical Natural Language Processing, by Christopher D. Manning et Hinrich Schütze, MIT Press, Cambridge, MA, USA, 1999. Plus d’informations à https://nlp.stanford.edu/fsnlp/.
    “HCL” se réfère à : The Handbook of Computational Linguistics and Natural Language Processing, edited by Alexander Clark, Chris Fox and Shalom Lappin, Wiley-Blackwell, Oxford, UK, 2010.
Autres cours de TAL en ligne