Thèse: Fouille de texte et extraction d'informations dans les données cliniques

Laboratoires d’accueil : La thèse aura lieu au sein de l’équipe Linkmedia de l'IRISA à Rennes, avec des séjours fréquents au laboratoire STL à Lille

Financement : Labex Comin'Labs, ANR-10-LABX-07-01 et région Bretagne -- nationalité française, suisse ou UE requise.

Début de la thèse : démarrage au plus tôt

Contexte

Le domaine de santé dispose aujourd’hui d’un volume important, mais toujours grandissant de données. Ces données peuvent être exploitées à des niveaux différents et dans différents domaines, mais surtout en relation avec des questions liées par exemple à la recherche clinique et translationnelle, à l’épidémiologie et pharmacovigilance, à l’évaluation de pratiques cliniques. Si l’intégration et l’exploitation des données structurées sont maintenant assez bien maîtrisées, le défi principal pour l’utilisation secondaire des données cliniques tient au fait qu’une partie écrasante des informations liées aux patients se trouve principalement sous format textuel et non structuré. Les méthodes et outils du Traitement Automatique de Langues (TAL) doivent permettre de convertir le texte sans structure en des données codées et plus facilement manipulables.

Objectif

Les objectifs de cette thèse sont liés aux différents défis et écueils existant actuellement. Ainsi, les travaux de thèse devront proposer, développer et tester des méthodes et outils TAL destinés aux traitements robustes et efficaces des données cliniques non structurées en français. Ces méthodes et outils devront également permettre le passage à l’échelle et le traitement en temps réel. L’hypothèse sous-jacente est que ces outils pourront ainsi être intégrés au sein d’un entrepôt des données cliniques et seront utilisables pour la recherche clinique dans différents hôpitaux de la région du grand ouest, avec une extension possible à d’autres régions.

Une deuxième hypothèse est que les traitements robustes doivent se baser sur des algorithmes qui permettent de prendre en compte assez finement la sémantique des textes et des données cliniques. Une annotation sémantique précise devra donc fournir la base du traitement TAL. Parmi les aspects visés se trouvent par exemple l’indexation du contenu médical, la fouille de textes et l’extraction d’information, l’incertitude et la négation, la qualité et contradiction dans les données. Notons aussi que les méthodes doivent être suffisamment robustes pour traiter des données hétérogènes, nécessaires pour différents cas d’usage et provenant de plus de différents hôpitaux.

Finalement, un autre objectif est de travailler dans un contexte multidisciplinaire et mettant en jeu une expertise multiple de différents intervenants : le corps médical dans les phases de définition de besoins et d’évaluation, des outils les experts en calcul distribué et en passage à l’échelle, et bien sûr les chercheurs en TAL pour les interactions quotidiennes lors de la réalisation des tâches du travail.

Profil et candidature

Le candidat devra être titulaire d'un master en informatique ou en TAL, ou d'un titre équivalent. Il devra avoir suivi des cours en fouille de données et/ou traitement automatique des langues. Le travail de thèse s'effectuera dans le cadre d'un contrat à durée déterminée de 3 ans, débutant dès que possible.

Les candidatures sont à envoyer par e-mail à vincent.claveau@irisa.fr et natalia.grabar@univ-lille3.fr
Elles devront comporter un CV, le relevé de notes du master, une lettre de motivation et le nom et les coordonnées d'un professeur pouvant vous recommander.
N’hésitez pas à nous contacter pour plus d’informations.