Construction d'un corpus parallèle à partir de corpus comparables pour la simplification de textes médicaux en français

Cardon, Rémi; Grabar, Natalia

Type de document :

Compte-rendu et recension critique d'ouvrage

Titre :

Construction d'un corpus parallèle à partir de corpus comparables pour la simplification de textes médicaux en français

Auteur(s) :

Cardon, Rémi [Auteur]
Savoirs, Textes, Langage (STL) - UMR 8163 [STL]
Grabar, Natalia [Auteur]

Savoirs, Textes, Langage (STL) - UMR 8163 [STL]

Titre de la revue :

Revue TAL : traitement automatique des langues

Éditeur :

Association pour le Traitement Automatique des Langues (ATALA) / Klincksieck

Date de publication :

2020

ISSN :

1248-9433

Discipline(s) HAL :

Informatique [cs]

Résumé :

La simplification automatique a pour objectif de produire une version de textes plus facile à comprendre à destination d'un public identifié. Nous nous intéressons à la simplification de textes médicaux. Le plus souvent, ...
Lire la suite >La simplification automatique a pour objectif de produire une version de textes plus facile à comprendre à destination d'un public identifié. Nous nous intéressons à la simplification de textes médicaux. Le plus souvent, le lexique et les règles de simplification sont acquis à partir de corpus parallèles. Comme de tels corpus n'existent pas en français, nous proposons des méthodes pour les construire à partir de corpus comparables. Notre méthode repose sur une étape de filtrage, destinée à ne garder que les meilleures phrases candidates à l'alignement, et une étape d'alignement considérée comme un problème de catégorisation. Il s'agit de décider si une paire de phrases est alignable ou non. Nous exploitons différents types de descripteurs (essentiellement basés sur le lexique et les corpus) et obtenons jusqu'à 0,97 de F-mesure avec les données équilibrées.Lire moins >

Résumé en anglais : [en]

The purpose of automatic simplification is to create version of texts which is easier to understand for a given targeted population. We aim at simplifying medical texts. Usually, lexicon and rules required for the ...
Lire la suite >The purpose of automatic simplification is to create version of texts which is easier to understand for a given targeted population. We aim at simplifying medical texts. Usually, lexicon and rules required for the simplification are acquired from parallel corpora. Since such corpora are not available for French, we propose methods for their creation from comparable corpora. Our method relies on filtering step, which purpose is to keep the best sentence candidates for alignment, and alignment step considered as categorization problem. The aim is to decide whether a pair of sentences is alignable or not. We exploit different types of features (mainly issued from lexicon and corpora) and get up to 0.97 F-measure with balanced data.Lire moins >

Langue :

Français

Vulgarisation :

Non

Projet ANR :

Communication, Literacy, Education, Accessibility, Readability

Collections :