Disambiguation of occurrences of reformulation ...
Type de document :
Autre communication scientifique (congrès sans actes - poster - séminaire...): Communication dans un congrès avec actes
Titre :
Disambiguation of occurrences of reformulation markers c'est-à-dire, disons, ça veut dire
Auteur(s) :
Grabar, Natalia [Auteur]
Savoirs, Textes, Langage (STL) - UMR 8163 [STL]
Eshkol-Taravella, Iris [Auteur]
Laboratoire Ligérien de Linguistique [LLL]
Savoirs, Textes, Langage (STL) - UMR 8163 [STL]
Eshkol-Taravella, Iris [Auteur]
Laboratoire Ligérien de Linguistique [LLL]
Titre de la manifestation scientifique :
JADT 2016
Ville :
Nice
Pays :
France
Date de début de la manifestation scientifique :
2016-06-07
Mot(s)-clé(s) en anglais :
reformulation
spoken and written corpora
automatic detection of reformulation
spoken and written corpora
automatic detection of reformulation
Discipline(s) HAL :
Informatique [cs]/Traitement du texte et du document
Sciences de l'Homme et Société/Linguistique
Sciences de l'Homme et Société/Linguistique
Résumé :
La reformulation est un processus qui consiste à dire à nouveau une information qui a déjà été dite, mais en effectuant un ensemble de modifications formelles et/ou sémantiques. Parfois, les reformulations sont signalées ...
Lire la suite >La reformulation est un processus qui consiste à dire à nouveau une information qui a déjà été dite, mais en effectuant un ensemble de modifications formelles et/ou sémantiques. Parfois, les reformulations sont signalées par des marquers spécifiques, comme par exemple c'est-à-dire, disons, ça veut dire. Nous proposons d'étudier le phénomène de reformulation. Plus particulièrement, nous nous concentrons sur la structure syntagmatique S1 marker S2, formée autour d'un marqueur de reformulation, et dans laquelle le premier segment S1 est reformulé par le deuxième segment S2. L'objectif de notre étude est de différencier automatiquement les occurrences reformulatives et non reformulatives des marqueurs étudiés. Nous créons un système basé sur des règles, qui repose sur un ensemble d'indices pour prendre la décision. Deux types de corpus en français sont traités : corpus oral ESLO et corpus de discussion de forum. L'évaluation du système est effectuée grâce à une comparaison avec un ensemble de référence consensuel annoté manuellement. Notre système a été créé sur un sous-ensemble du corpus oral et ensuite appliqué au reste de corpus. Les résultats obtenus atteignent jusqu'à 0,75 de précision et sont comparables dans les corpus analysés, bien que les corpus oraux soient plus difficiles à traiter.Lire moins >
Lire la suite >La reformulation est un processus qui consiste à dire à nouveau une information qui a déjà été dite, mais en effectuant un ensemble de modifications formelles et/ou sémantiques. Parfois, les reformulations sont signalées par des marquers spécifiques, comme par exemple c'est-à-dire, disons, ça veut dire. Nous proposons d'étudier le phénomène de reformulation. Plus particulièrement, nous nous concentrons sur la structure syntagmatique S1 marker S2, formée autour d'un marqueur de reformulation, et dans laquelle le premier segment S1 est reformulé par le deuxième segment S2. L'objectif de notre étude est de différencier automatiquement les occurrences reformulatives et non reformulatives des marqueurs étudiés. Nous créons un système basé sur des règles, qui repose sur un ensemble d'indices pour prendre la décision. Deux types de corpus en français sont traités : corpus oral ESLO et corpus de discussion de forum. L'évaluation du système est effectuée grâce à une comparaison avec un ensemble de référence consensuel annoté manuellement. Notre système a été créé sur un sous-ensemble du corpus oral et ensuite appliqué au reste de corpus. Les résultats obtenus atteignent jusqu'à 0,75 de précision et sont comparables dans les corpus analysés, bien que les corpus oraux soient plus difficiles à traiter.Lire moins >
Résumé en anglais : [en]
Reformulation is a process which consists of saying again an utterance which has already been said, but which goes through formal and/or semantic modifications. Sometimes, reformulations are signaled by specific markers, ...
Lire la suite >Reformulation is a process which consists of saying again an utterance which has already been said, but which goes through formal and/or semantic modifications. Sometimes, reformulations are signaled by specific markers, such as c'est-à-dire, disons, ça veut dire. We propose to study the reformulation phenomenon. More particularly, we concentrate on the syntagmatic structure S1 marker S2, coined around the reformulation markers, and in which the first segment S1 is reformulated by the second segment S2. The purpose of our study is to automatically differentiate between reformulation and non-reformulation occurrences of the markers studied. We design a rule-based system which relies on a set of rules to make the decision. Two kinds of French corpora are processed: spoken corpora ESLO and forum discussion corpus. The evaluation of the system is performed against the manually annotated and consensual reference data. Our system has been created on a subset of the spoken corpus and then applied to the rest of the data. The results obtained reach up to 0.75 precision and are comparable on the corpora analyzed, although spoken corpora remain more difficult to process.Lire moins >
Lire la suite >Reformulation is a process which consists of saying again an utterance which has already been said, but which goes through formal and/or semantic modifications. Sometimes, reformulations are signaled by specific markers, such as c'est-à-dire, disons, ça veut dire. We propose to study the reformulation phenomenon. More particularly, we concentrate on the syntagmatic structure S1 marker S2, coined around the reformulation markers, and in which the first segment S1 is reformulated by the second segment S2. The purpose of our study is to automatically differentiate between reformulation and non-reformulation occurrences of the markers studied. We design a rule-based system which relies on a set of rules to make the decision. Two kinds of French corpora are processed: spoken corpora ESLO and forum discussion corpus. The evaluation of the system is performed against the manually annotated and consensual reference data. Our system has been created on a subset of the spoken corpus and then applied to the rest of the data. The results obtained reach up to 0.75 precision and are comparable on the corpora analyzed, although spoken corpora remain more difficult to process.Lire moins >
Langue :
Anglais
Comité de lecture :
Oui
Audience :
Internationale
Vulgarisation :
Non
Collections :
Source :
Fichiers
- https://hal.archives-ouvertes.fr/hal-01426808/document
- Accès libre
- Accéder au document
- https://hal.archives-ouvertes.fr/hal-01426808/document
- Accès libre
- Accéder au document
- https://hal.archives-ouvertes.fr/hal-01426808/document
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- grabar-JADT2016.pdf
- Accès libre
- Accéder au document