Cours TAL

Cours de Traitement Automatique des Langues

HEIG-VD, semestre de printemps 2017/2018, 3ème année bachelor en TIC : Informatique ou Télécommunications. Voir TAL-1-A sur GAPS.  Le cours aura lieu les lundis de 8h30 à 10h00 (cours) et de 10h25 à 11h55 (labo) en salle J 05 (Cheseaux).  L’assistant du cours est M. Jérémie Despraz.

Schéma du cours de TAL

Le cours commencera par une introduction et un aperçu des données du TAL. Nous présenterons ensuite une série de méthodes de traitement de la langue : analyse des mots (catégories grammaticales), analyse syntaxique, analyse sémantique (basée sur les dictionnaires, puis sur les statistiques). Nous parlerons ensuite de l’évaluation des systèmes de TAL. Nous étudierons ensuite plusieurs applications : extraction de mots clés, classification des documents, analyse des sentiments, et modèles de langage. Nous donnerons enfin des perspectives sur plusieurs autres applications.

Emploi du temps et liens vers les supports
N. Jour Cours (1h30) Laboratoire (1h30) Lectures possibles
1 19.02 Introduction
Motivation. Applications du TAL. Niveaux d’analyse des textes. Organisation du cours de TAL.
Cours pratique : installation (depuis copie locale) et prise en main de la plateforme GATE. Utilisation des diapos annotées (de 1 à 53) et d’une partie des données du GATE Training Course (© U. of Sheffield). Chapitres introductifs des livres cités ci-dessous (SLP, FSNLP, HCL), p.ex. le chapitre 1 de Jurafsky et Martin.
GATE User Guide, 2.2.1 et chapitre 3,
Training Course, Mod. 1, Session 1.
Analyse des mots et des phrases (morphologie et syntaxe)
2 26.02 Le rôle des données en TAL
Les alphabets et leur encodage informatique
(Cours) Segmentation des documents en phrases et en mots
Exercice sur la segmentation formulé à la fin du cours, slide 13 (extrait corpus ici)
Introduction à Unicode ou article de P. Andries 2003
Segmentation : SLP3, Sec. 2.3 ; FSNLP, Sec. 4.2.
 3 05.03 L’analyse des mots : lemmes et catégories grammaticales (part-of-speech tagging) Labo 1A : Comparaison des composants de GATE pour le POS tagging, en anglais et en français (données ici) POS : SLP3, Ch. 10 (ou SLP2, Ch. 5) ; FSNLP, Ch. 10.
4 12.03 L’analyse syntaxique des phrases (parsing) Labo 1B.
Les comptes rendus des labos 1A+1B sont à remettre par e-mail avant le lundi 19 mars à 17h. Ils seront notés.
SLP3, Ch. 11, 12 et 13 (ou SLP2, Ch. 12, 13 et 14) ; HCL, Ch. 4 ; FSNLP, Sec. 3.2 (grammaires) et Ch. 11 et 12.
Analyse sémantique (formelle ou statistique)
5 19.03 (1 heure) Travail écrit 1
(30 min.) Fin du cours sur l’analyse syntaxique
Fin du labo 1 (A+B). SLP3, Ch. 17 ; FSNLP, Ch. 7.
6 26.03

La reconnaissance des entités nommées :
– introduction théorique
– explications pratiques avec le tutoriel GATE
Labo 2 : Évaluation comparative de trois systèmes de NER sous GATE : ANNIE, OpenNLP, Stanford (les ressources sont ici, et elles viennent d’ici)
Compte rendu par e-mail, pas noté.
NER : SLP2, Sec 22.1 ou SLP3, Sec. 21.1 ; HCL, Sec. 18.3.
2-8.4 Vacances de Pâques    
7 09.04 Correction du test 1
Les relations de coréférence dans les textes et leur résolution
Correction du labo 1
Labo 3 : Évaluation de la résolution des coréférences par GATE
Compte rendu par e-mail, pas noté.
SLP2, Ch. 21 ; HCL Sec. 21.4.
8 16.04 Représentation vectorielle des mots dans word2vec Labo 4 : Prise en main de word2vec (comparaison de modèles pré-entraînés avec d’autres entraînés localement : application à l’analogie des concepts) SLP3, Ch. 16.
9 23.04 Modélisation statistique du sens des mots en contexte : information mutuelle, espaces latents Fin du Labo 4 : compte-rendu par e-mail (groupes de 2 étudiants) noté. SLP3, Ch. 15 et 16.
Church & Hanks 1990.
Applications du TAL
10 30.04 (1ère période) Travail écrit 2

(2nde période) Dictionnaires sémantiques : WordNet et la désambiguïsation sémantique

Évaluation d’une méthode de WSD
11 07.05
(salle J02)
Extraction de mots-clés à partir de documents et représentation en nuages de mots.
Méthodologie du TAL : annotations humaines et apprentissage automatique (machine learning)
Exercices avec la plateforme GATE (TermRaider)
Présentation et prise en main de la plateforme WEKA pour le machine learning
Popescu-Belis 2007.
Witten et al., Data Mining.
12 14.05 Correction du test 2
Classification de documents par des méthodes d’apprentissage automatique (Naive Bayes, etc.) – Représentation vectorielle des documents pour la classification : traits lexicaux, réduction de la dimensionnalité.
Labo 5 : Utilisation de WEKA pour la classification, comparaison des méthodes mises en œuvre avec l’état de l’art (p.ex. sur le corpus Reuters).
Compte-rendu par e-mail (groupes de 2 étudiants) noté.
FSNLP, Ch. 16 et Sec 15.2.
21.05 Lundi de Pentecôte, férié
13 28.05 (1ère période) Travail écrit 3
(2nde période) Analyse des sentiments ou opinions
Exercices avec WEKA pour l’analyse des critiques de films et la détermination des meilleurs traits SLP3, Ch. 18.
14 04.06 Modèles de langage à base de n-grammes Entraînement et test de modèles de langage. Comparaison avec les humains sur une tâche de prédiction de mots SLP3 (ou SLP2), Ch. 4
15 11.06 Correction du test 3
Perspectives sur d’autres applications du TAL – Conclusion du cours
SLP3, Ch. 26 à 30 ; FSNLP, Partie IV ; HCL, Partie IV.
Références
  • “SLP2” se réfère à : Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, by Dan Jurafsky and James H. Martin, 2nd edition, Prentice-Hall, Upper Saddle River, NJ, USA, 2008.
  • “FSNLP” se réfère à un livre plus ancien mais toujours d’actualité : Foundations of Statistical Natural Language Processing, by Christopher D. Manning et Hinrich Schütze, MIT Press, Cambridge, MA, USA, 1999. Plus d’informations à https://nlp.stanford.edu/fsnlp/.
  • “HCL” se réfère à : The Handbook of Computational Linguistics and Natural Language Processing, edited by Alexander Clark, Chris Fox and Shalom Lappin, Wiley-Blackwell, Oxford, UK, 2010.
  • “GATE User Guide” est disponible en ligne : https://gate.ac.uk/sale/tao/split.html.
Autres cours de TAL en ligne