Source works:
1. Cyril Grouin, Natalia Grabar, Vincent Claveau, Thierry Hamon
Clinical Case Reports for NLP
BIONLP 2019
August 1st, 2019. Florence, Italy
pdf
2. Natalia Grabar, Cyril Grouin, Thierry Hamon, Vincent Claveau
Corpus annoté de cas cliniques en français
TALN 2019
June 3-5, 2019. Toulouse, France
pdf
The corpus contains clinical cases in French annotated with several kinds of information:
The annotated corpus has been used during the DEFT challenges in 2019 and 2020. The annotations are issued from two annotators and are consensual.
To get the dataset, please contact Natalia Grabar (natalia.grabar@univ-lille.fr).
The corpus has been built within the CominLabs LabEx project managed by the ANR in Investing for the Future program under reference ANR-10-LABX-07-01. The semantic annotations have been done as part of the DEFT challenges in 2019 and 2020.
Source work: Rémi Cardon, Natalia Grabar French Biomedical Text Simplification: When Small and Precise Helps COLING 2020 8-13 December 2020, online pdf
Download the dataset with parallel corpora in French: 32Mo zip archive.
The dataset contains two corpora: WikiLarge FR and CLEAR. The CLEAR parallel corpus is extracted from the CLEAR comparable corpus.
The corpora are segmented into train, validation and test sets.
Version difficile | Version simplifiée |
---|---|
Après les tambours sont les danseurs, qui souvent jouent le sogo, un minuscule tambour qui ne fait presque aucun son, et ont tendance à avoir plus de détails -- même acrobatique -- chorégraphie. | Les tambours sont des danseurs et jouent souvent le sogo qu'ils ont tendance à avoir la chorégraphie arcobatique. |
Alessandro, ''Sandro'', Mazzola, soutenu 8 Novembre 1942, est un ancien joueur de football italien. | Alessandro Mazzola est un ancien joueur de football italien. |
L'admission à Tsinghua est extrêmement compétitive. | L'entrée à Tsinghua est très difficile. |
Il a également été nommé "sportif de l'année" en 1982 par Sports Illustrated. | Sports Illustrated l'a nommé "sportif de l'année" en 1982. |
Nupedia a été fondée le 9 mars 2000, sous la propriété de Bomis, Inc, une entreprise de portail Web. | Bomis Inc, une entreprise de portail Web, a fondé Nupedia le 9 mars 2000. |
alphagan ne doit pas être utilisé pendant l'allaitement | alphagan ne doit pas être utilisé si vous allaitez |
- amnésie antérograde, qui peut survenir aux doses thérapeutiques, le risque augmentant proportionnellement à la dose, | - troubles de mémoire (trous de mémoire), qui peuvent survenir aux doses thérapeutiques, le risque augmentant proportionnellement à la dose, |
l'émail est la partie externe de la couronne des dents | l'émail recouvre la dentine de la dent |
This work was funded by the French National Agency for Research (ANR) as part of the CLEAR project (Communication, Literacy, Education, Accessibility, Readability), ANR-17-CE19-0016-01.
Source work: Natalia Grabar, Rémi Cardon CLEAR - Simple Corpus for Medical French ATA 2018 (ENLG workshop on Automatic Text Adaptation) 8 November 2018, Tilburg, The Netherlands pdf
Download the datasets with medical comparable corpora in French:
This work was funded by the French National Agency for Research (ANR) as part of the CLEAR project (Communication, Literacy, Education, Accessibility, Readability), ANR-17-CE19-0016-01.
Source work: Natalia Grabar, Thierry Hamon A large rated lexicon with French medical words LREC (Language Resources and Evaluation Conference) 2016 23-28 May 2016, Portorož, Slovenia pdf
The French medical lexicon has been annotated by three annotators into three categories:
Download the datasets with the rated medical lexicon The dataset contains three files from three annotators.
An excerpt from this lexicon (three annotators involved):Term | Lemma | POS | Semantic axes | Ann 1 | Ann 2 | Ann 3 |
---|---|---|---|---|---|---|
Anévrismes | anévrisme | N (Noun) | M (Morphology) | + | - | / |
cheilotomie | cheilotomie | N (Noun) | P (Procedure) | - | - | - |
comportemental | comportemental | Adj (Adjective) | D (Disorder) F (Functions) P (Procedure) | + | + | + |
fascioplastie | fascioplastie | N (Noun) | P (Procedure) | / | - | - |
ligneuse | ligneux | Adj (Adjective) | D (Disorder) | / | + | / |
This work was funded by the French National Agency for Research (ANR) as part of the CLEAR project (Communication, Literacy, Education, Accessibility, Readability), ANR-17-CE19-0016-01.
Source work:
Anaïs Koptient, Rémi Cardon, Natalia Grabar
Simplification-induced transformations: typology and some characteristics
BIONLP 2019
1st August 2019, Florence, Italy
pdf
Typology of simplification-induced transformations:
Source work: Natalia Grabar, Thierry Hamon WikiWars-UA: Ukrainian corpus annotated with temporal expressions COLINS 2019 April 18-19, 2019, Kharkiv, Ukraine pdf
Download the whole WikiWar-UA dataset
For more instructions, visit the github page.
Source work: Natalia Grabar, Thierry Hamon Creation of a multilingual aligned corpus with Ukrainian as the target language and its exploitation COLINS 2017 21 April 2017, Kharkiv, Ukraine pdf
Download the whole dataset The dataset contains 122 UTF8 text files. Paired files are aligned at the sentence level.
Global description:
Source work: Natalia Grabar, Pierre Zweigenbaum. A general method for sifting linguistic knowledge from structured terminologies. AMIA 2000: 310-4. PMID 11079895 pdf
lemme-tag-fr-4.4.liste (2389 lignes) Contenu: paires de mots liés morphologiquement, lemmes, dérivation, composition, étiquetage syntaxique, règles de formation, certains accents manquants:
lemme-deriv-fr.2.liste (462 lignes) Contenu: paires de mots liés morphologiquement, lemmes, dérivation, composition:
forme-deriv-fr-4.2.liste (2418 lignes) Contenu: paires de mots liés morphologiquement, formes, dérivation, composition, certains accents manquants:
forme-deriv-fr-4.4.liste (2418 lignes) Contenu: paires de mots liés morphologiquement, formes, dérivation, composition, règles de formation, certains accents manquants:
forme-flex-deriv-fr.4.liste (5826 lignes) Contenu: paires de mots liés morphologiquement, formes, flexion, dérivation, composition, règles de formation, certains accents manquants:
forme-flex-deriv-fr-4.2.liste (4517 lignes) Contenu: paires de mots liés morphologiquement, formes, flexion, dérivation, composition, règles de formation, certains accents manquants:
forme-flex-fr.2.liste (3470 lignes) Contenu: paires de mots liés morphologiquement, formes, flexion, certains accents manquants:
famille-forme-flex-deriv-fr.liste (1678 familles) Contenu: familles de mots liés morphologiquement, formes, flexion, dérivation, composition:
famille-lemme-tag-fr.liste (1078 familles) Contenu: familles de mots liés morphologiquement, lemmes, dérivation, composition :