• English
    • français
  • Help
  •  | 
  • Contact
  •  | 
  • About
  •  | 
  • Login
  • HAL portal
  •  | 
  • Pages Pro
  • EN
  •  / 
  • FR
View Item 
  •   LillOA Home
  • Liste des unités
  • Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL) - UMR 9189
  • View Item
  •   LillOA Home
  • Liste des unités
  • Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL) - UMR 9189
  • View Item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Intégration d’informations contextuelles ...
  • BibTeX
  • CSV
  • Excel
  • RIS

Document type :
Thèse
Title :
Intégration d’informations contextuelles et de sens commun pour la compréhension automatique du discours :Contributions à la classification des relations temporelles et à la résolution des anaphores associatives
English title :
Integrating Contextual and Commonsense Information for Automatic Discourse Understanding :Contributions to Temporal Relation Classification and Bridging Anaphora Resolution
Author(s) :
Pandit, Onkar [Auteur]
Machine Learning in Information Networks [MAGNET]
Thesis director(s) :
Marc Tommasi
Pascal Denis
Liva Ralaivola
Defence date :
2021-09-23
Accredited body :
Université de Lille
Keyword(s) :
NLP
English keyword(s) :
NLP
Temporal relation classification
Knowledge graphs
HAL domain(s) :
Informatique [cs]/Intelligence artificielle [cs.AI]
Informatique [cs]
French abstract :
Etablir l’ordre temporel entre les événements et résoudre les anaphores associatives sont cruciaux pour la compréhension automatique du discours. La résolution de ces tâches nécessite en premier lieu une représentation ...
Show more >
Etablir l’ordre temporel entre les événements et résoudre les anaphores associatives sont cruciaux pour la compréhension automatique du discours. La résolution de ces tâches nécessite en premier lieu une représentation efficace des événements et de mentionsd’entités. Cette thèse s’attaque directement à cette problématique, à savoir la conception de nouvelles approches pour obtenir des représentations d’événements et de mentions plus expressives.Des informations contextuelles et de sens commun sont nécessaires pour obtenir de telles représentations. Cependant, leur acquisition et leur injection dans les modèles d’apprentissage est une tâche difficile car, d’une part, il est compliqué de distinguer le contexte utile à l’intérieur de paragraphes ou de documents plus volumineux, et il est tout aussi difficile au niveau computationnel de traiter de plus grands contextes. D’autrepart, acquérir des informations de sens commun à la manière des humains reste une question de recherche ouverte. Les tentatives antérieures reposant sur un codage manuel des représentations d’événements et de mentions ne sont pas suffisantes pour acquérir des informations contextuelles. De plus, la plupart des approches sont inadéquates pour capturer des informations de sens commun, car elles ont à nouveau recours à des approches manuelles pour acquérir ces informations à partir de sources telles que des dictionnaires, le Web ou des graphes de connaissances. Dans notre travail, nous abandonnons ces approches inefficaces d’obtention de représentations d’événements etde mentions. Premièrement, nous obtenons des informations contextuelles pour améliorer les représentations des événements en fournissant des n-grams de mots voisins de l’événement. Nous utilisons également une représentation des événements basée sur les caractères pour capturer des informations supplémentaires sur le temps et l’aspect de la structure interne des têtes lexicales des événements. Nous allons aussi plus loin en apprenantles interactions sur ces représentations d’événements pour obtenir des représentations riches de paires d’événements. Nous constatons que nos représentations d’événements améliorées démontrent des gains substantiels par rapport à une approche qui ne repose que sur les plongements de la tête lexical de l’événement. De plus, notre étude d’ablation prouve l’efficacité de l’apprentissage d’interactions complexes ainsi que le rôledes représentations basées sur les caractères.Ensuite, nous sondons les modèles de langage de type transformer (par exemple BERT) qui se sont révélés meilleurs pour capturer le contexte. Nous étudions spécifiquement les anaphores associatives pour comprendre la capacité de ces modèles à capturer ce type derelation inférentielle. Le but de cette étude est d’utiliser ces connaissances pour prendre des décisions éclairées lors de la conception de meilleurs modèles de transformer afin d’améliorer encore les représentations des mentions. Pour cela, nous examinons individuellement la structure interne du modèle puis l’ensemble du modèle. L’examen montre que les modèles pré-entraînés sont étonnamment bons pour capturer des informationsassociatives et que ces capacités dépendent fortement du contexte, car elles fonctionnent mal avec des contextes déformés. De plus, notre analyse qualitative montre que BERT est capable de capturer des informations de base de sens commun mais ne parvient pas à capturer des informations sophistiquées, qui sont nécessaires pour la résolution des anaphores associatives.Enfin, nous combinons à la fois des informations contextuelles et de sens commun pour améliorer encore les représentations des événements et des mentions. Nous injectons des informations de sens commun à l’aide de graphes de connaissances pour les tâches de classification des relations temporelles et de résolution d’anaphores associatives. Notre approche pour acquérir de telles connaissances se fonde sur des plongements de nœuds de graphe appris sur des graphes de connaissances pour capturer la topologie globale du graphe, obtenant ainsi des informations externes plus globales. Plus précisément, nous combinons des représentations basées sur des graphes de connaissances et desreprésentations contextuelles apprises avec des plongements uniquement textuels pour produire des représentations plus riches en connaissances. Nous évaluons notre approche sur des jeux de données standard comme ISNotes, BASHI et ARRAU pour la résolution des anaphores associatives et MATRES pour la classification des relations temporelles. Nous observons des gains substantiels de performance par rapport aux représentationsuniquement textuelles sur les deux tâches démontrant l’efficacité de notre approche.Show less >
English abstract : [en]
Establishing temporal order between events and resolving bridging references are crucial for automatic discourse understanding. For that, effective event and mention representations are essential to accurately solve temporal ...
Show more >
Establishing temporal order between events and resolving bridging references are crucial for automatic discourse understanding. For that, effective event and mention representations are essential to accurately solve temporal relation classification and bridging resolution. This thesis addresses exactly that and designs novel approaches to obtain more expressive event and mention representations.Contextual and commonsense information is needed for obtaining such effective representations. However, acquiring and injecting it is a challenging task because, on the one hand, it is hard to distinguish useful context itself from bigger paragraphs or documents and also equally difficult to process bigger contexts computationally. On the other hand, obtaining commonsense information like humans acquire, is still an openresearch question. The earlier attempts of hand engineered event and mention representations are not sufficient for acquiring contextual information. Moreover, most of the approaches are inadequate at capturing commonsense information as they again resorted to hand-picky approaches of acquiring such information from sources like dictionaries, web, or knowledge graphs. In our work, we get rid of these inefficacious approaches of getting event and mention representations. First, we obtain contextual information to improve event representations by providing neighboring n-words of the event. We also use character-based representation of events to capture additional tense, and aspect information from the internal structure of event headwords. We also go a step further and learn interactions over these event representations to get rich event-pair representations. We find that our improved eventrepresentations demonstrate substantial gains over an approach which relied only on the event head embeddings. Also, our ablation study proves the effectiveness of complex interaction learning as well as the role of character-based representations. Next, we probe transformer language models (e.g. BERT) that are proved to be better at capturing context. We investigate specifically for bridging inference to understand the capacity of these models at capturing it. The purpose of this investigation is to use these understandings for making informed decisions at designing better transformer models to further improve mention representations. For that, we examine the model’s internalstructure individually and then the whole model. The investigation shows that pre-trained models are surprisingly good at capturing bridging information and these capabilities are highly context dependent, as they perform poorly with distorted contexts. Further, our qualitative analysis shows that BERT is capable of capturing basic commonsense information but fails to capture sophisticated information which is required for bridgingresolution.Finally, we combine both contextual and commonsense information for further improving event and mention representations. We inject commonsense information with the use of knowledge graphs for both temporal relation classification and bridging anaphora resolution tasks. We take a principled approach at acquiring such knowledge where we employ graph node embeddings learned over knowledge graphs to capture the overall topology of the graph as a result gaining holistic external information. Specifically, we combine knowledge graph based representations and contextual representations learned with text-only embeddings to produce knowledge-aware representations. We evaluate our approach over standard datasets like ISNotes, BASHI, and ARRAU for bridging anaphora resolution and MATRES for temporal relation classification. We observe substantial gains in performances over text-only representations on both tasks proving the effectiveness of our approach.Show less >
Language :
Anglais
Collections :
  • Centre de Recherche en Informatique, Signal et Automatique de Lille (CRIStAL) - UMR 9189
Source :
Harvested from HAL
Files
Thumbnail
  • https://hal.inria.fr/tel-03528029/document
  • Open access
  • Access the document
Thumbnail
  • https://hal.inria.fr/tel-03528029/document
  • Open access
  • Access the document
Thumbnail
  • https://hal.inria.fr/tel-03528029/document
  • Open access
  • Access the document
Université de Lille

Mentions légales
Université de Lille © 2017