Cours TAL

Cours de Traitement Automatique des Langues

HEIG-VD, semestre de printemps 2018/2019, 3ème année bachelor en TIC : Informatique ou Télécommunications. Voir TAL sur GAPS 

Schéma du cours de TAL

Le cours commencera par une introduction et un aperçu des données du TAL. Nous présenterons ensuite une série de méthodes de traitement de la langue : analyse des mots (catégories grammaticales), analyse syntaxique, analyse sémantique (basée sur les dictionnaires, puis sur les statistiques). Nous parlerons ensuite de l’évaluation des systèmes de TAL. Nous étudierons ensuite plusieurs applications : extraction de mots clés, classification des documents, analyse des sentiments, et modèles de langage. Nous donnerons enfin des perspectives sur plusieurs autres applications.

Planning prévisionnel

N. Jour Cours (1h30) Laboratoire (1h30) Lectures possibles
1 X.02 Introduction
Motivation. Applications du TAL. Niveaux d’analyse des textes. Organisation du cours de TAL.
Cours pratique : installation et prise en main de la plateforme NLTK (en Python, avec Jupyter Notebooks). Utilisation de la documentation NLTK. Chapitres introductifs des livres cités ci-dessous (SLP, FSNLP, HCL), p.ex. le chapitre 1 de Jurafsky et Martin. Livre NLTK.
Analyse des mots et des phrases (morphologie et syntaxe)
2 X.02 Le rôle des données en TAL
Les alphabets et leur encodage informatique
(Cours) Segmentation des documents en phrases et en mots
Exercices sur la segmentation.
Introduction à Unicode ou article de P. Andries 2003
Sur la segmentation : SLP3, Sec. 2.3 ; FSNLP, Sec. 4.2.
 3 X.03 L’analyse des mots : lemmes et catégories grammaticales (part-of-speech tagging) Labo 1A : Comparaison d’étiqueteurs morpho-syntaxiques (POS taggers) dans NLTK, en anglais et en français. POS : SLP3, Ch. 10 (ou SLP2, Ch. 5) ; FSNLP, Ch. 10.
4 12.03 L’analyse syntaxique des phrases (parsing) Labo 1B.
Les comptes rendus des labos 1A+1B sont à remettre par e-mail.
SLP3, Ch. 11, 12 et 13 (ou SLP2, Ch. 12, 13 et 14) ; HCL, Ch. 4 ; FSNLP, Sec. 3.2 (grammaires) et Ch. 11 et 12.
Analyse sémantique (formelle ou statistique)
5 X.03 Travail écrit 1 (1 heure) – à confirmer
Fin du cours sur l’analyse syntaxique (30 min.)
Fin du labo 1 (A+B). SLP3, Ch. 17 ; FSNLP, Ch. 7.
6 X.03

La reconnaissance des entités nommées :
– introduction théorique
– explications pratiques
Labo 2 : Évaluation comparative de systèmes de NER NER : SLP2, Sec 22.1 ou SLP3, Sec. 21.1 ; HCL, Sec. 18.3.
7 X.04 Les relations de coréférence dans les textes et leur résolution Labo 3 : Résolution des pronoms
SLP2, Ch. 21 ; HCL Sec. 21.4.
8 X.04 Représentation vectorielle des mots dans word2vec Labo 4 : Prise en main de word2vec (comparaison de modèles pré-entraînés avec d’autres entraînés localement : application à l’analogie des concepts) SLP3, Ch. 16.
9 X.04 Modélisation statistique du sens des mots en contexte : information mutuelle, espaces latents Fin du Labo 4 SLP3, Ch. 15 et 16.
Church & Hanks 1990.
19-28.4 Vacances de Pâques
Applications du TAL
10 X.04 Dictionnaires sémantiques: WordNet et la désambiguïsation lexicale Labo 5: Évaluation de deux méthodes de WSD: algorithme de Lesk et distance word2vec  SLP3, Ch. 17.
11 X.05 Travail écrit 2 (1 heure) — à confirmer
Extraction de mots-clés à partir de documents (1 h.)
Exercices avec NLTK
12 X.05 Correction du test 2.
Classification de documents par des méthodes d’apprentissage automatique
Labo 6 : Classification de textes. Witten et al., Data Mining.
FSNLP, Ch. 16 et Sec 15.2.
Manning, Raghavan & Schütze, Ch. 13
13 X.05 Lundi de Pentecôte, férié
14 X.05 Modèles de langage à base de n-grammes Sélection des attributs
Fin du labo 6
SLP3 (ou SLP2), Ch. 4
15 X.06 (1ère période) Travail écrit 3 — à confirmer
(2nde période) Analyse des sentiments ou opinions
Analyse des critiques de films et la détermination des meilleurs traits SLP3, Ch. 18.
16 X.06 Conclusion du cours de TAL
– perspectives sur d’autres applications du TAL
– méthodologie du TAL et rôle de l’évaluation
– feedback sur le test 3 et les labos 6 et 7
SLP3, Ch. 26 à 30 ; FSNLP, Partie IV ; HCL, Partie IV.
Popescu-Belis 2007.

Références
  • “SLP2” se réfère à : Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, by Dan Jurafsky and James H. Martin, 2nd edition, Prentice-Hall, Upper Saddle River, NJ, USA, 2008.
  • “NLTK” se réfère à : Natural Language Processing with Python – Analyzing Text with the Natural Language Toolkit, by Steven Bird, Ewan Klein, and Edward Loper, O’Reilly, Sebastopol, CA, USA, 2009.
  • “FSNLP” se réfère à un livre plus ancien mais toujours d’actualité : Foundations of Statistical Natural Language Processing, by Christopher D. Manning et Hinrich Schütze, MIT Press, Cambridge, MA, USA, 1999. Plus d’informations à https://nlp.stanford.edu/fsnlp/.
    “HCL” se réfère à : The Handbook of Computational Linguistics and Natural Language Processing, edited by Alexander Clark, Chris Fox and Shalom Lappin, Wiley-Blackwell, Oxford, UK, 2010.
Autres cours de TAL en ligne