Cours TAL

Cours de Traitement Automatique des Langues

HEIG-VD, semestre de printemps 2018/2019, 3ème année bachelor en TIC : Informatique ou Télécommunications. Voir aussi la fiche TAL sur GAPS.

Les cours et labos ont lieu les mardis de 13h15 à 16h30 en salle K03.

Schéma du cours de TAL

Le cours commencera par une introduction et un aperçu des données du TAL. Nous présenterons ensuite une série de méthodes de traitement de la langue : analyse des mots (catégories grammaticales), analyse syntaxique, analyse sémantique (basée sur les dictionnaires, puis sur les statistiques).  Nous étudierons ensuite plusieurs applications : extraction de mots clés, classification des documents, analyse des sentiments, et modèles de langage. Nous parlerons enfin de l’évaluation des systèmes de TALe et donnerons des perspectives sur plusieurs autres applications.

Planning

N. Jour Cours (1h30) Laboratoire (1h30) Lectures possibles
1 19.02 Introduction
Motivation et applications du TAL. Niveaux d’analyse des textes. Organisation du cours de TAL.
Labo 1 : Prise en main de la plateforme NLTK, en Python, avec des notebooks Jupyter, en local ou sur Google Colab. SLP2, Ch. 1 / NLTKbook, Ch. 1
Analyse des mots et des phrases (morphologie et syntaxe)
2 26.02 Le rôle des données en TAL. Les alphabets et leur encodage informatique. La segmentation en mots et en phrases Exercices sur la segmentation en NLTK et les encodages de caractères (fin Labo 1) Introduction à Unicode, article de P. Andries,
SLP3, Sec. 2.3 (segmentation)
 3 5.03 L’analyse des mots : lemmes et catégories grammaticales (part-of-speech tagging) Labo 2 : Comparaison d’étiqueteurs morpho-syntaxiques (POS taggers) dans NLTK, en anglais et en français.
(new data here)
POS : SLP3, Ch. 10 (ou SLP2, Ch. 5)
4 12.03 L’analyse syntaxique des phrases (parsing) Suite et fin du travail sur le Labo 2. Début du Labo 3 sur l’analyse syntaxique. SLP3, Ch. 11, 12 et 13 (ou SLP2, Ch. 12, 13 et 14)
5 19.03 Fin du cours sur l’analyse syntaxique Labo 3 : analyse syntaxique
Analyse sémantique (formelle ou statistique)
6 26.03

La reconnaissance des entités nommées Labo 4 : évaluation comparative de systèmes de NER SLP3, Sect. 17.1, SLP2, Sect. 22.1
7 2.04 Les relations de coréférence dans les textes et leur résolution Fin du labo 4 et exercice sur la coréférence
SLP2, Ch. 21
8 9.04 Représentation vectorielle des mots dans word2vec Labo 5 : Comparaison de modèles word2vec SLP3, Ch. 6
9 16.04 Modélisation statistique du sens des mots en contexte : information mutuelle, espaces latents Fin du Labo 5 SLP2, Sect. 20.7
Church & Hanks 1990.
19-28.4 Vacances de Pâques
Applications du TAL
10 30.04 Test 1 (leçons 1-8)
Dictionnaires sémantiques: WordNet et la désambiguïsation lexicale SLP2, Sect. 19.1-3, 20.1-6
11 7.05 Notions sur l’extraction des mots-clés (1 période) Labo 6 : évaluation de deux méthodes de WSD: algorithme de Lesk et distance word2vec
12 14.05 Classification de textes par des méthodes d’apprentissage automatique Fin du labo 6
Labo 7 : classification de textes pour la WSD
Manning et Schütze, Ch. 16 et Sect. 15.2.
Manning, Raghavan & Schütze, Ch. 13
13 21.05 Analyse des sentiments ou des opinions Labo 7 SLP3, Ch. 19 (lexiques) et ch. 4 (Naive Bayes)
14 28.05 Test 2 (leçons 9-13) Labo 7 (fin)
15 4.06 Modèles de langage à base de n-grammes Labo 8 : modèles de langage / Cloze Test SLP3, Ch. 3
16 11.06 Conclusion du cours de TAL. Perspectives sur d’autres applications. Méthodologie des projets en TAL et rôle de l’évaluation. Labo 8 (suite et fin) SLP3, Ch. 22-25,
Popescu-Belis 2007 (évaluation)

Références

SLP2Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, by Dan Jurafsky and James H. Martin, 2nd edition, Prentice-Hall, Upper Saddle River, NJ, USA, 2008.

SLP3 – 3e édition, en cours de rédaction ; des versions préliminaires de certains chapitres sont disponibles en ligne.

NLTKbookNatural Language Processing with Python – Analyzing Text with the Natural Language Toolkit, by Steven Bird, Ewan Klein, and Edward Loper, O’Reilly, Sebastopol, CA, USA, 2009. (Édition imprimée, pour Python 2, en version HTML ou en PDFversion HTML mise à jour en Python 3documentation de NLTK.)

Autres livres

Foundations of Statistical Natural Language Processing, by Christopher D. Manning et Hinrich Schütze, MIT Press, Cambridge, MA, USA, 1999. (voir https://nlp.stanford.edu/fsnlp/).

The Handbook of Computational Linguistics and Natural Language Processing, edited by Alexander Clark, Chris Fox and Shalom Lappin, Wiley-Blackwell, Oxford, UK, 2010.

Python 3 Text Processing with NLTK 3 Cookbook

Autres cours de TAL en ligne