Identifier les relations discursives ...
Document type :
Article dans une revue scientifique
Title :
Identifier les relations discursives implicites en combinant données naturelles et données artificielles
Author(s) :
Braud, Chloé [Auteur]
Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing [ALPAGE]
Denis, Pascal [Auteur]
Machine Learning in Information Networks [MAGNET]
Analyse Linguistique Profonde à Grande Echelle ; Large-scale deep linguistic processing [ALPAGE]
Denis, Pascal [Auteur]

Machine Learning in Information Networks [MAGNET]
Journal title :
Revue TAL
Pages :
31
Publisher :
ATALA (Association pour le Traitement Automatique des Langues)
Publication date :
2014-12-12
ISSN :
1248-9433
Keyword(s) :
structure discursive
apprentissage automatique
relations discursives implicites
apprentissage automatique
relations discursives implicites
English keyword(s) :
discourse structure
implicit discourse relations
machine learning
implicit discourse relations
machine learning
HAL domain(s) :
Sciences de l'Homme et Société/Linguistique
Informatique [cs]/Informatique et langage [cs.CL]
Informatique [cs]/Informatique et langage [cs.CL]
French abstract :
Cet article présente les premières expériences sur le français d'identification automatique des relations discursives implicites (i.e., non marquées par un connecteur). Nos systèmes exploitent des exemples implicites ...
Show more >Cet article présente les premières expériences sur le français d'identification automatique des relations discursives implicites (i.e., non marquées par un connecteur). Nos systèmes exploitent des exemples implicites annotés, ainsi que des exemples implicites artificiels obtenus à partir d'exemples explicites par suppression du connecteur, une méthode introduite par Marcu et Echihabi (2002). Les précédentes études sur l'anglais montrent que l'utilisation à l'entraînement des données artificielles dégrade largement les performances sur les données naturelles, ce qui reflète des différences importantes en termes de distribution. Ce constat, qui tient aussi pour le français, nous a amenés à envisager différentes méthodes, inspirées de l'adaptation de domaine, visant à combiner plus efficacement les données. Nous évaluons ces méthodes sur le corpus ANNODIS : notre meilleur système obtient 41,7 % d'exactitude, soit un gain significatif de 4,4 % par rapport à un modèle n'utilisant que les données naturelles.Show less >
Show more >Cet article présente les premières expériences sur le français d'identification automatique des relations discursives implicites (i.e., non marquées par un connecteur). Nos systèmes exploitent des exemples implicites annotés, ainsi que des exemples implicites artificiels obtenus à partir d'exemples explicites par suppression du connecteur, une méthode introduite par Marcu et Echihabi (2002). Les précédentes études sur l'anglais montrent que l'utilisation à l'entraînement des données artificielles dégrade largement les performances sur les données naturelles, ce qui reflète des différences importantes en termes de distribution. Ce constat, qui tient aussi pour le français, nous a amenés à envisager différentes méthodes, inspirées de l'adaptation de domaine, visant à combiner plus efficacement les données. Nous évaluons ces méthodes sur le corpus ANNODIS : notre meilleur système obtient 41,7 % d'exactitude, soit un gain significatif de 4,4 % par rapport à un modèle n'utilisant que les données naturelles.Show less >
English abstract : [en]
This paper presents the first experiments on French in automatic identification of implicit discourse relations (i.e. relations that lack an overt connective). Our systems exploit hand-labeled implicit examples, along with ...
Show more >This paper presents the first experiments on French in automatic identification of implicit discourse relations (i.e. relations that lack an overt connective). Our systems exploit hand-labeled implicit examples, along with artificial implicit examples obtained from explicit examples by suppressing their connective, following Marcu et Echihabi (2002). Previous work on English shows that using artificial data for training largely degrades performance on natural data, reflecting important differences in the distribution. This conclusion, that also holds for French, has led us to consider various methods inspired by domain adaptation to better combine the data. We evaluate these methods on the ANNODIS corpus: our best system achieves a 41.7 % accuracy, that is a significant gain of 4.4 % compared to a model using only the natural data. MOTS-CLÉS : structure discursive, relations discursives implicites, apprentissage automatique.Show less >
Show more >This paper presents the first experiments on French in automatic identification of implicit discourse relations (i.e. relations that lack an overt connective). Our systems exploit hand-labeled implicit examples, along with artificial implicit examples obtained from explicit examples by suppressing their connective, following Marcu et Echihabi (2002). Previous work on English shows that using artificial data for training largely degrades performance on natural data, reflecting important differences in the distribution. This conclusion, that also holds for French, has led us to consider various methods inspired by domain adaptation to better combine the data. We evaluate these methods on the ANNODIS corpus: our best system achieves a 41.7 % accuracy, that is a significant gain of 4.4 % compared to a model using only the natural data. MOTS-CLÉS : structure discursive, relations discursives implicites, apprentissage automatique.Show less >
Language :
Français
Peer reviewed article :
Oui
Audience :
Internationale
Popular science :
Non
Collections :
Source :
Files
- https://hal.inria.fr/hal-01094346/document
- Open access
- Access the document
- https://hal.inria.fr/hal-01094346/document
- Open access
- Access the document
- https://hal.inria.fr/hal-01094346/document
- Open access
- Access the document