Cours TAL

Cours de Traitement Automatique des Langues

HEIG-VD, semestre de printemps 2017/2018, 3ème année bachelor en TIC : Informatique ou Télécommunications

Références
  • “SLP2” se réfère à : Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, by Dan Jurafsky and James H. Martin, 2nd edition, Prentice-Hall, Upper Saddle River, NJ, USA, 2008.
  • “FSNLP” se réfère à un livre plus ancien mais toujours d’actualité : Foundations of Statistical Natural Language Processing, by Christopher D. Manning et Hinrich Schütze, MIT Press, Cambridge, MA, USA, 1999. Plus d’informations à https://nlp.stanford.edu/fsnlp/.
  • “HCL” se réfère à : The Handbook of Computational Linguistics and Natural Language Processing, edited by Alexander Clark, Chris Fox and Shalom Lappin, Wiley-Blackwell, Oxford, UK, 2010.
  • “GATE User Guide” est disponible en ligne : https://gate.ac.uk/sale/tao/split.html.
Emploi du temps et liens vers les supports
N. Jour Cours (1h30) Laboratoire (1h30) Références
1 >19.02 Introduction : utilité et difficulté du TAL
Niveaux d’analyse des textes écrits
Importance des données : documents et corpus
Informations pratiques sur le cours de TAL
Cours pratique : installation et prise en main de la plateforme GATE Chapitres introductifs des livres cités dans l’introduction (SLP, FSNLP, HCL). GATE User Guide, 2.2.1 et 3.
Analyse des mots et des phrases (morphologie et syntaxe)
2 >26.02 Les alphabets et leur encodage informatique (Cours) Segmentation des documents en phrases et en mots

 

Unicode : P. Andries 2003

Seg. : SLP3, Sec. 2.3 ; FSNLP, Sec. 4.2.

3 >05.03 L’analyse des mots : lemmes et catégories grammaticales (part-of-speech tagging)
Cas particulier des entités nommées
Labo 1 : Comparaison des composants de GATE pour l’analyse lexicale et syntaxique, en plusieurs langues POS : SLP3, Ch. 10 (ou SLP2, Ch. 5) ; FSNLP, Ch. 10.
NER : SLP3, Sec. 21.1 ; HCL, Sec. 18.3.
4 >12.03 L’analyse syntaxique des phrases (parsing) Fin du Labo 1 : compte-rendu noté. SLP3, Ch. 11 et 12 (ou SLP2, Ch. 12 et 13) ; HCL, Ch. 4 ; FSNLP, Sec. 3.2 (grammaires).
Analyse sémantique (formelle ou statistique)
5 >19.03 (1ère période) Travail écrit 1

(2nde période) Comment décrire le sens des mots ?

Cours pratique : présentation de WordNet et expériences de désambiguïsation sémantique SLP3, Ch. 17 ; FSNLP, Ch. 7.
6 >26.03
[Ve 30]
La reconnaissance des entités nommées et les ontologies : extraction d’information depuis les documents Découverte de DBpedia et Spotlight
Évaluation de l’application ANNIE de GATE
SLP3, Sec. 21.1 et 21.2.
2-8.4 Vacances de Pâques    
7 >09.04 Correction du travail écrit 1
Les relations de coréférence dans les textes
Évaluation de la résolution des coréférences (noms et pronoms par les outils de GATE) SLP3, Ch. 24 ; HCL Sec. 21.4.
8 >16.04 Modélisation du sens des mots en contexte
Historique des méthodes statistiques (information mutuelle, espaces latents)
(Cours) Représentation des mots dans word2vec SLP3, Ch. 15 et 16.
Church & Hanks 1990.
9 >23.04 Labo 2 : Comparaison de modèles word2vec pré-entraînés avec des modèles appris localement : application à la mesure de similarité de mots Fin du Labo 2 : compte-rendu noté.
Applications du TAL
10 >30.04 (1ère période) Travail écrit 2

(2nde période) Extraction de mots-clés à partir de documents et représentation en nuages de mots

Exercices avec la plateforme GATE (TermRaider)
11 >07.05
Je-Ve
10-11
Méthodologie du TAL : annotations humaines et apprentissage automatique (machine learning) Cours pratique : présentation et prise en main de la plateforme WEKA pour le machine learning Popescu-Belis 2007.
Witten et al., Data Mining.
12 >14.05 Correction du travail écrit 2
Classification de documents par des méthodes d’apprentissage automatique (Naive Bayes, etc.)
Labo 3 : Utilisation de WEKA pour la classification, comparaison des méthodes mises en œuvre avec l’état de l’art (p.ex. sur le corpus Reuters) FSNLP, Ch. 16.
13 >21.05
Lu 21
Représentation vectorielle des documents pour la classification : traits lexicaux, réduction de la dimensionnalité Fin du Labo 3 : compte-rendu noté. FSNLP, Sec. 15.2.
14 >28.05 (1ère période) Travail écrit 3

(2nde période) Analyse des sentiments/opinions

Exercices avec WEKA pour l’analyse des critiques de films et la détermination des meilleurs traits SLP3, Ch. 18.
15 >04.06 Modèles de langage à base de n-grammes Entraînement et test de modèles de langage  Comparaison avec les humains sur une tâche de prédiction de mots effacés SLP3 (ou SLP2), Ch. 4
16 >11.06 Correction du travail écrit 3
Perspectives sur d’autres applications du TAL – Conclusion du cours
SLP3, Ch. 26 à 30 ; FSNLP, Partie IV ; HCL, Partie IV.