Stage: Vers la simplification de textes techniques

http://natalia.grabar.free.fr/stage2016s.html

Le domaine médical a une terminologie spécifique, avec des termes comme par exemple /sanguin, abdominoplastie, hépatique, dermabrasion ou hépatoduodénostomie/, utilisée communément par le personnel médical. Pour cette raison entre autre, la compréhension d'information de santé est souvent compliquée pour les non spécialistes et pour les patients [1-4]. La disponibilité des informations de santé en ligne peut aussi modifier le modèle de communication entre ces catégories de personnes [5-6].

L'objectif de ce stage consiste à proposer des méthodes pour simplifier les documents spécialisés et pour les "traduire" dans une langue plus facilement compréhensible par les non spécialistes, et de tester ces méthodes. Le matériel traité est de différents types :

  • textes spécialisés qui proviennent des publications scientifique, documents cliniques ou sites web spécialisés,
  • ressources linguistiques qui alignent les termes techniques avec des expressions moins techniques (infarctus du myocarde/crise cardiaque) [7],
  • éventuellement, des documents parallèles ou comparables contenant les textes spécialisés et leurs équivalents moins spécialisés.

En utilisant des méthodes de Traitement Automatique de la Langue, il s'agit plus spécifiquement des objectifs suivants :

  • travailler avec les documents produits par les médecins,
  • prendre en main les ressources linguistiques alignant les termes avec différents niveaux de spécificité,
  • si les corpus parallèles/comparables sont disponibles, effectuer une analyse contrastive de ces documents,
  • proposer des règles pour déclencher les modifications/substitutions lexicales,
  • exploiter le lexique avec les correspondances entre les termes savants et les expressions des patients pour effectuer les modifications/substitutions lexicales.

Le stagiaire sera amené à utiliser des outils TAL existants et à développer ses propres programmes pour mieux analyser les données.

Prérequis:

  • connaissances en TAL et en linguistique
  • manipulation et test des outils de TAL
  • habitude de Linux
  • capacité de travailler en équipe et individuellement
  • lecture et analyse de la littérature scientifique

Le stage est rémunéré.

Selon les résultats du stage, une poursuite en thèse pourrait être envisagée.

  • Niveau: Master 2
  • Durée: 6 mois
  • Lieu: Lille, Paris (éventuellement)

Pour présenter une candidature: envoyer un CV, la lettre de motivation, le relevé de notes et les contacts de deux référents à natalia.grabar@univ-lille3.fr

Bibliographie:

  1. Patel V., Branch T., Arocha J., Errors in interpreting quantities as procedures : The case of pharmaceutical labels, International journal of medical informatics, vol. 65(3), p. 193-211, 2002
  2. Williams M., Parker R., Baker D., Parikh N., Pitkin K., Coates W., Nurss J., Inadequate functional health literacy among patients at two public hospitals, JAMA, vol. 274(21), p. 1677-82, 1995
  3. Rudd R., Moeykens B., Colton T., Annual Review of Adult Learning and Literacy, ch 5, 1999
  4. Berland G., Elliott M., Morales L., Algazy J., Kravitz R., Broder M., Kanouse D., Munoz J., Puyol J., Lara M., Watkins K., Yang H., McGlynn E., Health information on the Internet. Accessibility, quality, and readability in English ans Spanish, JAMA, vol. 285(20), p. 2612-2621, 2001
  5. Tran T., Chekroud H., Thiery P., Julienne A., Internet et soins : un tiers invisible dans la relation médecine/patient ?, Ethica Clinica, vol. 53, p. 34-43, 2009
  6. Jucks R., Bromme R., Choice of words in doctor-patient communication: an analysis of health-related internet sites, Health Commun, vol. 21(3), p. 267-77, 2007
  7. Grabar N., Hamon T. Extraction automatique de paraphrases grand public pour les termes médicaux. TALN 2015: Traitement Automatique des Langues Naturelles. 14 p.