NLP for linguists

Examen mars 2019

Examen du cours "Linguistique outillée, TAL pour les linguistes"

2019/03/27

Le matériel de cours est autorisé (supports de cours, articles, transparents des présentations, notes de cours, scripts perl).

Toutes les réponses doivent être expliquées et justifiées.

S'il y a des questions, elles ne peuvent être posées qu'à Natalia Grabar.


Si nécessaire, utilisez ces fichiers :
  1. all-EX-p.line.gz
  2. all-EX-p.ttg.gz

INSTRUCTIONS

  1. Créez le répertoire EXAM-PRENOM.
    mkdir EXAM-PRENOM
    cd EXAM-PRENOM
    Toutes les manipulations seront effectuées dans ce répertoire.
  2. Les questions de l'examen se trouvent dans le fichier questions.txt.gz
  3. Téléchargez ce fichier, ouvrez-le dans l'emacs et ajoutez les réponses dans le fichier. N'oubliez pas d'enregistrer le fichier au fur et à mesure de la rédaction.
  4. Lorsque vous aurez terminé, créez l'archive exam-prenom.zip :
    cd ../
    zip exam-prenom.zip EXAM-PRENOM/*
    envoyez-moi l'archive à l'adresse : natalia.grabar@univ-lille.fr
  5. Avant de partir, vérifiez que j'ai bien reçu votre archive et que je peux l'ouvrir.

QUESTIONS

  1. Expliquez en quoi consiste le TAL (Traitement Automatique des Langues). Quels sont ses objectifs, applications, méthodes, ressources ?

  2. Expliquez les principes d'évaluation : (1) entre les annotateurs humains et (2) des résultats d'un programme automatique par rapport aux données de référence. Indiquez et expliquez les principes et les mesures.

  3. En vous basant sur ce schéma (Brin & Page, 1998) :

    décrivez l'application de recherche d'information et expliquez comment les connaissances linguistiques y sont utilisées.

  4. Les données de référence contiennent 540 documents. Le système automatique retrouve 680 documents parmi lesquels 420 sont corrects (se trouvent dans les données de référence). Calculez la précision et le rappel de ce système automatique.

  5. La phrase Le pilote ferme la porte contient des ambiguïtés. Expliquez en quoi elles consistent.

  6. Proposez les étiquetages morpho-syntaxiques possibles de la phrase Le pilote ferme la porte. Expliquez comment un système automatique peut effectuer la désambiguïsation.
  7. Comment cette phrase est étiquetée par TreeTagger ?
    Le pilote ferme la porte.

  8. Expliquez en quoi consistent les corpus comparables et les corpus parallèles, et quelles sont les différences.

  9. Modifiez le script perl exam.pl pour extraire trois types de séquences (patrons terminologiques) : Nom de Nom, Nom Prep Verbe-infinitif, Nom Adj
    Appliquez-le au fichier all-EX.line et créez le fichier all-EX.pter :
       perl exam.pl -file all-EX.line > all-EX.pter
    La sortie attendue (lemmes) :
        NOM ADJ : abcès dentaire
        NOM de NOM : nom de abcès
        NOM ADJ : infection purulent
        NOM de NOM : type de abcès
        NOM ADJ : exacerbation aiguë
        NOM ADJ : abcès parodontal
        NOM ADJ : signe clinique
        NOM ADJ : traumatisme occlusal
        NOM PRP VINF : manière de opérer
        NOM PRP VINF : erreur de croire

    LTTAC : en plus de ceci, calculez la fréquence de chaque séquence pour obtenir la sortie suivante :
        vie de famille|1|NOM de NOM
        droit de ingérence|7|NOM de NOM
        quantité de sang|10|NOM de NOM
        cas de incompatibilité|2|NOM de NOM
        terme de opportunité|1|NOM de NOM
        date de publication|2|NOM de NOM
        effet de réduire|5|NOM PRP Vinf
        difficulté à bouger|1|NOM PRP Vinf
        facteur neurotrophe|2|NOM ADJ
        personne inconscient|2|NOM ADJ

       perl exam.pl -file all-EX.line > all-EX.pter1

  10. LTTAC : faites un programme qui calcule le lexique fréquentiel des lemmes à partir de l'étiquetage morpho-syntaxique de TreeTagger, sur l'exemple du fichier all-EX.ttg, en prenant uniquement les mots qui contiennent les caractères alphabétiques latins. Les mots doivent être minusculisés.
    Redirigez la sortie dans le fichier all-EX.lexf
    La sortie attendue :
        garrot|75
        schmidt|19
        lactifer|1
        sérallini|1
        deback|2
        incompatible|14