Cours TAL

Cours de Traitement Automatique des Langues

HEIG-VD, semestre de printemps 2017/2018, 3ème année bachelor en TIC : Informatique ou Télécommunications. Voir TAL-1-A sur GAPS.  Le cours aura lieu les lundis de 8h30 à 10h00 (cours) et de 10h25 à 11h55 (labo) en salle J 05 (Cheseaux).  L’assistant du cours est M. Jérémie Despraz.

Schéma du cours de TAL

Le cours commencera par une introduction et un aperçu des données du TAL. Nous présenterons ensuite une série de méthodes de traitement de la langue : analyse des mots (catégories grammaticales), analyse syntaxique, analyse sémantique (basée sur les dictionnaires, puis sur les statistiques). Nous parlerons ensuite de l’évaluation des systèmes de TAL. Nous étudierons ensuite plusieurs applications : extraction de mots clés, classification des documents, analyse des sentiments, et modèles de langage. Nous donnerons enfin des perspectives sur plusieurs autres applications.

Emploi du temps et liens vers les supports
N. Jour Cours (1h30) Laboratoire (1h30) Lectures possibles
1 19.02 Introduction
Motivation. Applications du TAL. Niveaux d’analyse des textes. Organisation du cours de TAL.
Cours pratique : installation (depuis copie locale) et prise en main de la plateforme GATE. Utilisation des diapos annotées (de 1 à 53) et d’une partie des données du GATE Training Course (© U. of Sheffield). Chapitres introductifs des livres cités ci-dessous (SLP, FSNLP, HCL), p.ex. le chapitre 1 de Jurafsky et Martin.
GATE User Guide, 2.2.1 et chapitre 3,
Training Course, Mod. 1, Session 1.
Analyse des mots et des phrases (morphologie et syntaxe)
2 26.02 Le rôle des données en TAL
Les alphabets et leur encodage informatique
(Cours) Segmentation des documents en phrases et en mots
Exercice sur la segmentation formulé à la fin du cours, slide 13 (extrait corpus ici)
Introduction à Unicode ou article de P. Andries 2003
Segmentation : SLP3, Sec. 2.3 ; FSNLP, Sec. 4.2.
 3 05.03 L’analyse des mots : lemmes et catégories grammaticales (part-of-speech tagging) Labo 1A : Comparaison des composants de GATE pour le POS tagging, en anglais et en français (données ici) POS : SLP3, Ch. 10 (ou SLP2, Ch. 5) ; FSNLP, Ch. 10.
4 12.03 L’analyse syntaxique des phrases (parsing) Labo 1B.
Les comptes rendus des labos 1A+1B sont à remettre par e-mail avant le lundi 19 mars à 17h. Ils seront notés.
SLP3, Ch. 11, 12 et 13 (ou SLP2, Ch. 12, 13 et 14) ; HCL, Ch. 4 ; FSNLP, Sec. 3.2 (grammaires) et Ch. 11 et 12.
Analyse sémantique (formelle ou statistique)
5 19.03 (1 heure) Travail écrit 1
(30 min.) Fin du cours sur l’analyse syntaxique
Fin du labo 1 (A+B). SLP3, Ch. 17 ; FSNLP, Ch. 7.
6 26.03

La reconnaissance des entités nommées :
– introduction théorique
– explications pratiques avec le tutoriel GATE
Labo 2 : Évaluation comparative de trois systèmes de NER sous GATE : ANNIE, OpenNLP, Stanford (les ressources sont ici, et elles viennent d’ici)
Compte rendu par e-mail, pas noté.
NER : SLP2, Sec 22.1 ou SLP3, Sec. 21.1 ; HCL, Sec. 18.3.
2-8.4 Vacances de Pâques    
7 09.04 Correction du test 1
Les relations de coréférence dans les textes et leur résolution
Correction du labo 1
Labo 3 : Évaluation de la résolution des coréférences par GATE
Compte rendu par e-mail, pas noté.
SLP2, Ch. 21 ; HCL Sec. 21.4.
8 16.04 Représentation vectorielle des mots dans word2vec Labo 4 : Prise en main de word2vec (comparaison de modèles pré-entraînés avec d’autres entraînés localement : application à l’analogie des concepts) SLP3, Ch. 16.
9 23.04 Modélisation statistique du sens des mots en contexte : information mutuelle, espaces latents Fin du Labo 4 : compte-rendu par e-mail (groupes de 2 étudiants) noté. SLP3, Ch. 15 et 16.
Church & Hanks 1990.
Applications du TAL
10 30.04 Dictionnaires sémantiques: WordNet et la désambiguïsation lexicale Labo 5: Évaluation de deux méthodes de WSD: algorithme de Lesk et distance word2vec
Compte rendu par e-mail, note = bonus
 SLP3, Ch. 17.
11 07.05 (1 heure) Travail écrit 2 (1 heure)
(1 heure) Extraction de mots-clés à partir de documents
Exercices avec TermRaider sur la plateforme GATE (données : Reuters)
12 14.05 Correction du test 2.
Remarques sur les labos.
Classification de documents par des méthodes d’apprentissage automatique
Labo 6 : Classification de textes.
Compte-rendu par e-mail (groupes de 2 étudiants) noté.
Witten et al., Data Mining.
FSNLP, Ch. 16 et Sec 15.2.
Manning, Raghavan & Schütze, Ch. 13
13 21.05 Lundi de Pentecôte, férié
14 28.05 Modèles de langage à base de n-grammes Weka: sélection d’attributs
Fin du labo 6 (dû ce lundi avant 23h59)
SLP3 (ou SLP2), Ch. 4
15 04.06 (1ère période) Travail écrit 3 (30 min.)
(2nde période) Analyse des sentiments ou opinions
Exercices avec WEKA pour l’analyse des critiques de films et la détermination des meilleurs traits (corpus ici) SLP3, Ch. 18.
16 11.06 Conclusion du cours de TAL
– perspectives sur d’autres applications du TAL
– méthodologie du TAL et rôle de l’évaluation
– feedback sur le test 3 et les labos 6 et 7
SLP3, Ch. 26 à 30 ; FSNLP, Partie IV ; HCL, Partie IV.
Popescu-Belis 2007.
Références
  • “SLP2” se réfère à : Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, by Dan Jurafsky and James H. Martin, 2nd edition, Prentice-Hall, Upper Saddle River, NJ, USA, 2008.
  • “FSNLP” se réfère à un livre plus ancien mais toujours d’actualité : Foundations of Statistical Natural Language Processing, by Christopher D. Manning et Hinrich Schütze, MIT Press, Cambridge, MA, USA, 1999. Plus d’informations à https://nlp.stanford.edu/fsnlp/.
  • “HCL” se réfère à : The Handbook of Computational Linguistics and Natural Language Processing, edited by Alexander Clark, Chris Fox and Shalom Lappin, Wiley-Blackwell, Oxford, UK, 2010.
  • “GATE User Guide” est disponible en ligne : https://gate.ac.uk/sale/tao/split.html.
Autres cours de TAL en ligne