Parsing en Dépendances Multilingue : ...
Type de document :
Thèse
Titre :
Parsing en Dépendances Multilingue : Représentation de Mots et Apprentissage Joint pour l’Analyse Syntaxique
Titre en anglais :
Multi-Lingual Dependency Parsing : Word Representation and Joint Training for Syntactic Analysis
Auteur(s) :
Dehouck, Mathieu [Auteur]
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 [CRIStAL]
Machine Learning in Information Networks [MAGNET]
Centre de Recherche en Informatique, Signal et Automatique de Lille - UMR 9189 [CRIStAL]
Machine Learning in Information Networks [MAGNET]
Directeur(s) de thèse :
Marc Tommasi
Pascal Denis
Pascal Denis
Date de soutenance :
2019-05-20
Président du jury :
Sandra Kübler [Rapportrice]
Alexis Nasr [Rapporteur]
Hélène Touzet [Présidente du jury]
Philippe Blache [Examinateur]
Carlos Gomez Rodriguez [Examinateur]
Alexis Nasr [Rapporteur]
Hélène Touzet [Présidente du jury]
Philippe Blache [Examinateur]
Carlos Gomez Rodriguez [Examinateur]
Membre(s) du jury :
Sandra Kübler [Rapportrice]
Alexis Nasr [Rapporteur]
Hélène Touzet [Présidente du jury]
Philippe Blache [Examinateur]
Carlos Gomez Rodriguez [Examinateur]
Alexis Nasr [Rapporteur]
Hélène Touzet [Présidente du jury]
Philippe Blache [Examinateur]
Carlos Gomez Rodriguez [Examinateur]
Organisme de délivrance :
Université de lille
Mot(s)-clé(s) :
TAL
apprentissage automatique
parsing
analyse syntaxique
multilingue
dépendance
apprentissage automatique
parsing
analyse syntaxique
multilingue
dépendance
Mot(s)-clé(s) en anglais :
Syntactic Analysis
Multilingual
NLP
Machine learning
Dependency Parsing
Multilingual
NLP
Machine learning
Dependency Parsing
Discipline(s) HAL :
Informatique [cs]
Informatique [cs]/Informatique et langage [cs.CL]
Informatique [cs]/Apprentissage [cs.LG]
Informatique [cs]/Informatique et langage [cs.CL]
Informatique [cs]/Apprentissage [cs.LG]
Résumé :
L’analyse syntaxique est une étape cruciale du traitement de la langue. Suite aux récentes avancéesdans le domaine de l’apprentissage automatique, les parsers (analyseurs syntaxiques) atteignent des résultatscomparables à ...
Lire la suite >L’analyse syntaxique est une étape cruciale du traitement de la langue. Suite aux récentes avancéesdans le domaine de l’apprentissage automatique, les parsers (analyseurs syntaxiques) atteignent des résultatscomparables à ceux d’experts humains. Cependant, en dépit des efforts de la communauté, le nombre de languesayant des données annotées est encore relativement faible et seules une vingtaine de langues ont plus de 10000phrases annotées. Afin de lutter contre le manque de données d’apprentissage et rendre l’analyse syntaxique endépendances accessible à plus de langues, des chercheurs ont proposé des méthodes pour partager de l’informationsyntaxique entre différentes langues. En transférant modèles et/ou annotations ou en apprenant à analyserplusieurs langues en même temps, l’on peut profiter des similarités grammaticales des différentes langues et ainsiaméliorer leurs analyses respectives. Par contre, alors que les mots sont une source d’information importante pourl’analyse monolingue, ils sont bien moins facilement utilisables dans un contexte multilingue du fait de le grandevariabilité même entre des langues proches. Les traits grammaticaux (personne, genre, mode, cas...) sont biensplus stables que les mots et ils encodent directement de l’information syntaxique. Il est également plus simpled’annoter du texte juste avec les traits grammaticaux qu’avec la structure en dépendances complète. D’autantplus qu’avec l’augmentation de nombre langues ayant des données annotées suivant les mêmes règles d’annotation,il devient possible d’utiliser l’information morphologique comme pont entre les langues pour l’analyse syntaxiquemultilingue en dépendances.Dans cette thèse, nous présentons de nouvelles méthodes pour partager de l’information entre plusieurslangues. Elles ont en commun le fait d’utiliser la morphologie comme espace de représentation pour partager l’in-formation. Nous présentons également une nouvelle mesure de la complexité morphosyntaxique nous permettantd’étudier le rôle de la morphologie dans l’analyse en dépendances.La première méthode utilise de l’information morphologique de plusieurs langues pour induire des représenta-tions de mots délexicalisées qui peuvent être utilisées ensuite pour améliorer les résultats de parsers monolingues.La seconde méthode traite la morphologie comme un espace de travail commun à toutes les langues pour ypartager de l’information lors de l’apprentissage simultané de modèles d’analyse syntaxique. L’apprentissage yest guidé par l’arbre phylogénique des différentes familles de langues, ce qui permet de partager de l’informationentre les langues historiquement liées susceptibles de partager des trait grammaticaux. Nous montrons par le biaisd’expériences avec les données du projet Universal Dependencies que cette nouvelle méthodes d’apprentissage estbien plus efficace que l’apprentissage de modèles indépendants pour les langues ayant très peu de ressources, etqu’elle est aussi bénéfiques pour les langues mieux dotées dès que leurs branches sont biens fournies. Nous finissonsavec une étude de la valeur intrinsèque de la morphologie pour l’analyse syntaxique. Dans les faits, alors quecertaines langues utilisent la morphologie pour encoder de l’information syntaxique (avec les cas et les personnes),d’autres encodent surtout de l’information sémantique (comme le temps ou le mode). Ainsi nous introduisonsune nouvelle mesure de la complexité morphosyntaxique qui quantifie l’information syntaxique contenue dans lamorphologie en termes d’attachement préférentiel au gouverneur. Nous montrons par une série d’expériences quecette nouvelle mesure est capable de discriminer les langues morphosyntaxiques des langues morphosémantiqueset qu’elle prédit mieux la qualité de l’analyse syntaxique d’une langue que les mesures plus traditionnelles decomplexité morphologique.Lire moins >
Lire la suite >L’analyse syntaxique est une étape cruciale du traitement de la langue. Suite aux récentes avancéesdans le domaine de l’apprentissage automatique, les parsers (analyseurs syntaxiques) atteignent des résultatscomparables à ceux d’experts humains. Cependant, en dépit des efforts de la communauté, le nombre de languesayant des données annotées est encore relativement faible et seules une vingtaine de langues ont plus de 10000phrases annotées. Afin de lutter contre le manque de données d’apprentissage et rendre l’analyse syntaxique endépendances accessible à plus de langues, des chercheurs ont proposé des méthodes pour partager de l’informationsyntaxique entre différentes langues. En transférant modèles et/ou annotations ou en apprenant à analyserplusieurs langues en même temps, l’on peut profiter des similarités grammaticales des différentes langues et ainsiaméliorer leurs analyses respectives. Par contre, alors que les mots sont une source d’information importante pourl’analyse monolingue, ils sont bien moins facilement utilisables dans un contexte multilingue du fait de le grandevariabilité même entre des langues proches. Les traits grammaticaux (personne, genre, mode, cas...) sont biensplus stables que les mots et ils encodent directement de l’information syntaxique. Il est également plus simpled’annoter du texte juste avec les traits grammaticaux qu’avec la structure en dépendances complète. D’autantplus qu’avec l’augmentation de nombre langues ayant des données annotées suivant les mêmes règles d’annotation,il devient possible d’utiliser l’information morphologique comme pont entre les langues pour l’analyse syntaxiquemultilingue en dépendances.Dans cette thèse, nous présentons de nouvelles méthodes pour partager de l’information entre plusieurslangues. Elles ont en commun le fait d’utiliser la morphologie comme espace de représentation pour partager l’in-formation. Nous présentons également une nouvelle mesure de la complexité morphosyntaxique nous permettantd’étudier le rôle de la morphologie dans l’analyse en dépendances.La première méthode utilise de l’information morphologique de plusieurs langues pour induire des représenta-tions de mots délexicalisées qui peuvent être utilisées ensuite pour améliorer les résultats de parsers monolingues.La seconde méthode traite la morphologie comme un espace de travail commun à toutes les langues pour ypartager de l’information lors de l’apprentissage simultané de modèles d’analyse syntaxique. L’apprentissage yest guidé par l’arbre phylogénique des différentes familles de langues, ce qui permet de partager de l’informationentre les langues historiquement liées susceptibles de partager des trait grammaticaux. Nous montrons par le biaisd’expériences avec les données du projet Universal Dependencies que cette nouvelle méthodes d’apprentissage estbien plus efficace que l’apprentissage de modèles indépendants pour les langues ayant très peu de ressources, etqu’elle est aussi bénéfiques pour les langues mieux dotées dès que leurs branches sont biens fournies. Nous finissonsavec une étude de la valeur intrinsèque de la morphologie pour l’analyse syntaxique. Dans les faits, alors quecertaines langues utilisent la morphologie pour encoder de l’information syntaxique (avec les cas et les personnes),d’autres encodent surtout de l’information sémantique (comme le temps ou le mode). Ainsi nous introduisonsune nouvelle mesure de la complexité morphosyntaxique qui quantifie l’information syntaxique contenue dans lamorphologie en termes d’attachement préférentiel au gouverneur. Nous montrons par une série d’expériences quecette nouvelle mesure est capable de discriminer les langues morphosyntaxiques des langues morphosémantiqueset qu’elle prédit mieux la qualité de l’analyse syntaxique d’une langue que les mesures plus traditionnelles decomplexité morphologique.Lire moins >
Résumé en anglais : [en]
Syntactic analysis is a key step in working with natural languages. With the advances in supervised machine learning, modern parsers have reached human performances. However, despite the intensiveefforts of the dependency ...
Lire la suite >Syntactic analysis is a key step in working with natural languages. With the advances in supervised machine learning, modern parsers have reached human performances. However, despite the intensiveefforts of the dependency parsing community, the number of languages for which data have been annotated isstill below the hundred, and only a handful of languages have more than ten thousands annotated sentences. Inorder to alleviate the lack of training data and to make dependency parsing available for more languages, previousresearch has proposed methods for sharing syntactic information across languages. By transferring models and/orannotations or by jointly learning to parse several languages at once, one can capitalise on languages grammaticalsimilarities in order to improve their parsing capabilities. However, while words are a key source of information formono-lingual parsers, they are much harder to use in multi-lingual settings because they vary heavily even betweenvery close languages. Morphological features on the contrary, are much more stable across related languages thanword forms and they also directly encode syntactic information. Furthermore, it is arguably easier to annotatedata with morphological information than with complete dependency structures. With the increasing availabilityof morphologically annotated data using the same annotation scheme for many languages, it becomes possible touse morphological information to bridge the gap between languages in multi-lingual dependency parsing.In this thesis, we propose several new approaches for sharing information across languages. These approacheshave in common that they rely on morphology as the adequate representation level for sharing information. Wetherefore also introduce a new method to analyse the role of morphology in dependency parsing relying on a newmeasure of morpho-syntactic complexity.The first method uses morphological information from several languages to learn delexicalised word representations that can then be used as feature and improve mono-lingual parser performances as a kind of distantsupervision. The second method uses morphology as a common representation space for sharing information during the joint training of model parameters for many languages. The training process is guided by the evolutionarytree of the various language families in order to share information between languages historically related thatmight share common grammatical traits. We empirically compare this new training method to independentlytrained models using data from the Universal Dependencies project and show that it greatly helps languages withfew resources but that it is also beneficial for better resourced languages when their family tree is well populated.We eventually investigate the intrinsic worth of morphological information in dependency parsing. Indeed not alllanguages use morphology as extensively and while some use morphology to mark syntactic relations (via casesand persons) other mostly encode semantic information (such as tense or gender). To this end, we introducea new measure of morpho-syntactic complexity that measures the syntactic content of morphology in a givencorpus as a function of preferential head attachment. We show through experiments that this new measure cantease morpho-syntactic languages and morpho-semantic languages apart and that it is more predictive of parsingresults than more traditional morphological complexity measures.Lire moins >
Lire la suite >Syntactic analysis is a key step in working with natural languages. With the advances in supervised machine learning, modern parsers have reached human performances. However, despite the intensiveefforts of the dependency parsing community, the number of languages for which data have been annotated isstill below the hundred, and only a handful of languages have more than ten thousands annotated sentences. Inorder to alleviate the lack of training data and to make dependency parsing available for more languages, previousresearch has proposed methods for sharing syntactic information across languages. By transferring models and/orannotations or by jointly learning to parse several languages at once, one can capitalise on languages grammaticalsimilarities in order to improve their parsing capabilities. However, while words are a key source of information formono-lingual parsers, they are much harder to use in multi-lingual settings because they vary heavily even betweenvery close languages. Morphological features on the contrary, are much more stable across related languages thanword forms and they also directly encode syntactic information. Furthermore, it is arguably easier to annotatedata with morphological information than with complete dependency structures. With the increasing availabilityof morphologically annotated data using the same annotation scheme for many languages, it becomes possible touse morphological information to bridge the gap between languages in multi-lingual dependency parsing.In this thesis, we propose several new approaches for sharing information across languages. These approacheshave in common that they rely on morphology as the adequate representation level for sharing information. Wetherefore also introduce a new method to analyse the role of morphology in dependency parsing relying on a newmeasure of morpho-syntactic complexity.The first method uses morphological information from several languages to learn delexicalised word representations that can then be used as feature and improve mono-lingual parser performances as a kind of distantsupervision. The second method uses morphology as a common representation space for sharing information during the joint training of model parameters for many languages. The training process is guided by the evolutionarytree of the various language families in order to share information between languages historically related thatmight share common grammatical traits. We empirically compare this new training method to independentlytrained models using data from the Universal Dependencies project and show that it greatly helps languages withfew resources but that it is also beneficial for better resourced languages when their family tree is well populated.We eventually investigate the intrinsic worth of morphological information in dependency parsing. Indeed not alllanguages use morphology as extensively and while some use morphology to mark syntactic relations (via casesand persons) other mostly encode semantic information (such as tense or gender). To this end, we introducea new measure of morpho-syntactic complexity that measures the syntactic content of morphology in a givencorpus as a function of preferential head attachment. We show through experiments that this new measure cantease morpho-syntactic languages and morpho-semantic languages apart and that it is more predictive of parsingresults than more traditional morphological complexity measures.Lire moins >
Langue :
Anglais
Collections :
Source :
Fichiers
- https://tel.archives-ouvertes.fr/tel-02197615/document
- Accès libre
- Accéder au document
- https://tel.archives-ouvertes.fr/tel-02197615/document
- Accès libre
- Accéder au document
- https://tel.archives-ouvertes.fr/tel-02197615/document
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- thesis.pdf
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- thesis.pdf
- Accès libre
- Accéder au document