Disambiguation of occurrences of reformulation ...
Document type :
Autre communication scientifique (congrès sans actes - poster - séminaire...): Communication dans un congrès avec actes
Title :
Disambiguation of occurrences of reformulation markers c'est-à-dire, disons, ça veut dire
Author(s) :
Grabar, Natalia [Auteur]
Savoirs, Textes, Langage (STL) - UMR 8163 [STL]
Eshkol-Taravella, Iris [Auteur]
Laboratoire Ligérien de Linguistique [LLL]
Savoirs, Textes, Langage (STL) - UMR 8163 [STL]
Eshkol-Taravella, Iris [Auteur]
Laboratoire Ligérien de Linguistique [LLL]
Conference title :
JADT 2016
City :
Nice
Country :
France
Start date of the conference :
2016-06-07
English keyword(s) :
reformulation
spoken and written corpora
automatic detection of reformulation
spoken and written corpora
automatic detection of reformulation
HAL domain(s) :
Informatique [cs]/Traitement du texte et du document
Sciences de l'Homme et Société/Linguistique
Sciences de l'Homme et Société/Linguistique
French abstract :
La reformulation est un processus qui consiste à dire à nouveau une information qui a déjà été dite, mais en effectuant un ensemble de modifications formelles et/ou sémantiques. Parfois, les reformulations sont signalées ...
Show more >La reformulation est un processus qui consiste à dire à nouveau une information qui a déjà été dite, mais en effectuant un ensemble de modifications formelles et/ou sémantiques. Parfois, les reformulations sont signalées par des marquers spécifiques, comme par exemple c'est-à-dire, disons, ça veut dire. Nous proposons d'étudier le phénomène de reformulation. Plus particulièrement, nous nous concentrons sur la structure syntagmatique S1 marker S2, formée autour d'un marqueur de reformulation, et dans laquelle le premier segment S1 est reformulé par le deuxième segment S2. L'objectif de notre étude est de différencier automatiquement les occurrences reformulatives et non reformulatives des marqueurs étudiés. Nous créons un système basé sur des règles, qui repose sur un ensemble d'indices pour prendre la décision. Deux types de corpus en français sont traités : corpus oral ESLO et corpus de discussion de forum. L'évaluation du système est effectuée grâce à une comparaison avec un ensemble de référence consensuel annoté manuellement. Notre système a été créé sur un sous-ensemble du corpus oral et ensuite appliqué au reste de corpus. Les résultats obtenus atteignent jusqu'à 0,75 de précision et sont comparables dans les corpus analysés, bien que les corpus oraux soient plus difficiles à traiter.Show less >
Show more >La reformulation est un processus qui consiste à dire à nouveau une information qui a déjà été dite, mais en effectuant un ensemble de modifications formelles et/ou sémantiques. Parfois, les reformulations sont signalées par des marquers spécifiques, comme par exemple c'est-à-dire, disons, ça veut dire. Nous proposons d'étudier le phénomène de reformulation. Plus particulièrement, nous nous concentrons sur la structure syntagmatique S1 marker S2, formée autour d'un marqueur de reformulation, et dans laquelle le premier segment S1 est reformulé par le deuxième segment S2. L'objectif de notre étude est de différencier automatiquement les occurrences reformulatives et non reformulatives des marqueurs étudiés. Nous créons un système basé sur des règles, qui repose sur un ensemble d'indices pour prendre la décision. Deux types de corpus en français sont traités : corpus oral ESLO et corpus de discussion de forum. L'évaluation du système est effectuée grâce à une comparaison avec un ensemble de référence consensuel annoté manuellement. Notre système a été créé sur un sous-ensemble du corpus oral et ensuite appliqué au reste de corpus. Les résultats obtenus atteignent jusqu'à 0,75 de précision et sont comparables dans les corpus analysés, bien que les corpus oraux soient plus difficiles à traiter.Show less >
English abstract : [en]
Reformulation is a process which consists of saying again an utterance which has already been said, but which goes through formal and/or semantic modifications. Sometimes, reformulations are signaled by specific markers, ...
Show more >Reformulation is a process which consists of saying again an utterance which has already been said, but which goes through formal and/or semantic modifications. Sometimes, reformulations are signaled by specific markers, such as c'est-à-dire, disons, ça veut dire. We propose to study the reformulation phenomenon. More particularly, we concentrate on the syntagmatic structure S1 marker S2, coined around the reformulation markers, and in which the first segment S1 is reformulated by the second segment S2. The purpose of our study is to automatically differentiate between reformulation and non-reformulation occurrences of the markers studied. We design a rule-based system which relies on a set of rules to make the decision. Two kinds of French corpora are processed: spoken corpora ESLO and forum discussion corpus. The evaluation of the system is performed against the manually annotated and consensual reference data. Our system has been created on a subset of the spoken corpus and then applied to the rest of the data. The results obtained reach up to 0.75 precision and are comparable on the corpora analyzed, although spoken corpora remain more difficult to process.Show less >
Show more >Reformulation is a process which consists of saying again an utterance which has already been said, but which goes through formal and/or semantic modifications. Sometimes, reformulations are signaled by specific markers, such as c'est-à-dire, disons, ça veut dire. We propose to study the reformulation phenomenon. More particularly, we concentrate on the syntagmatic structure S1 marker S2, coined around the reformulation markers, and in which the first segment S1 is reformulated by the second segment S2. The purpose of our study is to automatically differentiate between reformulation and non-reformulation occurrences of the markers studied. We design a rule-based system which relies on a set of rules to make the decision. Two kinds of French corpora are processed: spoken corpora ESLO and forum discussion corpus. The evaluation of the system is performed against the manually annotated and consensual reference data. Our system has been created on a subset of the spoken corpus and then applied to the rest of the data. The results obtained reach up to 0.75 precision and are comparable on the corpora analyzed, although spoken corpora remain more difficult to process.Show less >
Language :
Anglais
Peer reviewed article :
Oui
Audience :
Internationale
Popular science :
Non
Collections :
Source :
Files
- https://hal.archives-ouvertes.fr/hal-01426808/document
- Open access
- Access the document
- https://hal.archives-ouvertes.fr/hal-01426808/document
- Open access
- Access the document
- https://hal.archives-ouvertes.fr/hal-01426808/document
- Open access
- Access the document
- document
- Open access
- Access the document
- grabar-JADT2016.pdf
- Open access
- Access the document