Examen du cours "Linguistique outillée, TAL pour les linguistes"
2019/03/27
Le matériel de cours est autorisé (supports de cours, articles, transparents des présentations, notes de cours, scripts perl).
Toutes les réponses doivent être expliquées et justifiées.
S'il y a des questions, elles ne peuvent être posées qu'à Natalia Grabar.
Si nécessaire, utilisez ces fichiers :
- all-EX-p.line.gz
- all-EX-p.ttg.gz
INSTRUCTIONS
- Créez le répertoire EXAM-PRENOM.
mkdir EXAM-PRENOM
cd EXAM-PRENOM
Toutes les manipulations seront effectuées dans ce répertoire.
- Les questions de l'examen se trouvent dans le fichier questions.txt.gz
- Téléchargez ce fichier, ouvrez-le dans l'emacs et ajoutez les réponses dans le fichier. N'oubliez pas d'enregistrer le fichier au fur et à mesure de la rédaction.
- Lorsque vous aurez terminé, créez l'archive exam-prenom.zip :
cd ../
zip exam-prenom.zip EXAM-PRENOM/*
envoyez-moi l'archive à l'adresse : natalia.grabar@univ-lille.fr
- Avant de partir, vérifiez que j'ai bien reçu votre archive et que je peux l'ouvrir.
QUESTIONS
- Expliquez en quoi consiste le TAL (Traitement Automatique des Langues). Quels sont ses objectifs, applications, méthodes, ressources ?
- Expliquez les principes d'évaluation : (1) entre les annotateurs humains et (2) des résultats d'un programme automatique par rapport aux données de référence. Indiquez et expliquez les principes et les mesures.
- En vous basant sur ce schéma (Brin & Page, 1998) :

décrivez l'application de recherche d'information et expliquez comment les connaissances linguistiques y sont utilisées.
- Les données de référence contiennent 540 documents. Le système automatique retrouve 680 documents parmi lesquels 420 sont corrects (se trouvent dans les données de référence). Calculez la précision et le rappel de ce système automatique.
- La phrase Le pilote ferme la porte contient des ambiguïtés. Expliquez en quoi elles consistent.
- Proposez les étiquetages morpho-syntaxiques possibles de la phrase Le pilote ferme la porte. Expliquez comment un système automatique peut effectuer la désambiguïsation.
- Comment cette phrase est étiquetée par TreeTagger ?
Le pilote ferme la porte.
- Expliquez en quoi consistent les corpus comparables et les corpus parallèles, et quelles sont les différences.
- Modifiez le script perl exam.pl pour extraire trois types de séquences (patrons terminologiques) : Nom de Nom, Nom Prep Verbe-infinitif, Nom Adj
Appliquez-le au fichier all-EX.line et créez le fichier all-EX.pter :
perl exam.pl -file all-EX.line > all-EX.pter
La sortie attendue (lemmes) :
NOM ADJ : abcès dentaire
NOM de NOM : nom de abcès
NOM ADJ : infection purulent
NOM de NOM : type de abcès
NOM ADJ : exacerbation aiguë
NOM ADJ : abcès parodontal
NOM ADJ : signe clinique
NOM ADJ : traumatisme occlusal
NOM PRP VINF : manière de opérer
NOM PRP VINF : erreur de croire
LTTAC : en plus de ceci, calculez la fréquence de chaque séquence pour obtenir la sortie suivante :
vie de famille|1|NOM de NOM
droit de ingérence|7|NOM de NOM
quantité de sang|10|NOM de NOM
cas de incompatibilité|2|NOM de NOM
terme de opportunité|1|NOM de NOM
date de publication|2|NOM de NOM
effet de réduire|5|NOM PRP Vinf
difficulté à bouger|1|NOM PRP Vinf
facteur neurotrophe|2|NOM ADJ
personne inconscient|2|NOM ADJ
perl exam.pl -file all-EX.line > all-EX.pter1
- LTTAC : faites un programme qui calcule le lexique fréquentiel des lemmes à partir de l'étiquetage morpho-syntaxique de TreeTagger, sur l'exemple du fichier all-EX.ttg, en prenant uniquement les mots qui contiennent les caractères alphabétiques latins. Les mots doivent être minusculisés.
Redirigez la sortie dans le fichier all-EX.lexf
La sortie attendue :
garrot|75
schmidt|19
lactifer|1
sérallini|1
deback|2
incompatible|14