Découverte de nouvelles entités et relations ...
Type de document :
Communication dans un congrès avec actes
Titre :
Découverte de nouvelles entités et relations spatiales à partir d’un corpus de SMS
Auteur(s) :
Zenasni, Sarah [Auteur]
ADVanced Analytics for data SciencE [ADVANSE]
Territoires, Environnement, Télédétection et Information Spatiale [UMR TETIS]
Kergosien, Eric [Auteur]
Groupe d'Études et de Recherche Interdisciplinaire en Information et COmmunication - ULR 4073 [GERIICO ]
Roche, Mathieu [Auteur]
ADVanced Analytics for data SciencE [ADVANSE]
Territoires, Environnement, Télédétection et Information Spatiale [UMR TETIS]
Teisseire, Maguelonne [Auteur]
ADVanced Analytics for data SciencE [ADVANSE]
Territoires, Environnement, Télédétection et Information Spatiale [UMR TETIS]
ADVanced Analytics for data SciencE [ADVANSE]
Territoires, Environnement, Télédétection et Information Spatiale [UMR TETIS]
Kergosien, Eric [Auteur]

Groupe d'Études et de Recherche Interdisciplinaire en Information et COmmunication - ULR 4073 [GERIICO ]
Roche, Mathieu [Auteur]
ADVanced Analytics for data SciencE [ADVANSE]
Territoires, Environnement, Télédétection et Information Spatiale [UMR TETIS]
Teisseire, Maguelonne [Auteur]
ADVanced Analytics for data SciencE [ADVANSE]
Territoires, Environnement, Télédétection et Information Spatiale [UMR TETIS]
Titre de la manifestation scientifique :
TALN: Traitement Automatique des Langues Naturelles
Ville :
Paris
Pays :
France
Date de début de la manifestation scientifique :
2016-07-04
Titre de l’ouvrage :
23e Conférence sur le Traitement Automatique des Langues Naturelles
Titre de la revue :
JEP-TALN-RECITAL
Date de publication :
2016
Mot(s)-clé(s) :
Entités spatiales
Relations spatiales
Mesure de Similarité
Corpus de SMS
Relations spatiales
Mesure de Similarité
Corpus de SMS
Mot(s)-clé(s) en anglais :
Spatial Entities
Spatial Relations
Similarity Measure
SMS Corpus
Spatial Relations
Similarity Measure
SMS Corpus
Discipline(s) HAL :
Informatique [cs]/Traitement du texte et du document
Résumé :
Dans le contexte des masses de données aujourd’hui disponibles, de nombreux travaux liés à l’analyse de l’information spatiale s’appuient sur l’exploitation des données textuelles. La communication médiée (SMS, tweets, ...
Lire la suite >Dans le contexte des masses de données aujourd’hui disponibles, de nombreux travaux liés à l’analyse de l’information spatiale s’appuient sur l’exploitation des données textuelles. La communication médiée (SMS, tweets, etc.) véhiculant des informations spatiales prend une place prépondérante. L’objectif du travail présenté dans cet article consiste à extraire ces informations spatiales à partir d’un corpus authentique de SMS en français. Nous proposons un processus dans lequel, dans un premier temps, nous extrayons de nouvelles entités spatiales (par exemple, motpellier, montpeul à associer au toponyme Montpellier). Dans un second temps, nous identifions de nouvelles relations spatiales qui précèdent les entités spatiales (par exemple, sur, par, pres, etc.). La tâche est difficile et complexe en raison de la spécificité du langage SMS qui repose sur une écriture peu standardisée (apparition de nombreux lexiques, utilisation massive d’abréviations, variation par rapport à l’écrit classique, etc.). Les expérimentations qui ont été réalisées à partir du corpus 88milSMS mettent en relief la robustesse de notre système pour identifier de nouvelles entités et relations spatiales.Lire moins >
Lire la suite >Dans le contexte des masses de données aujourd’hui disponibles, de nombreux travaux liés à l’analyse de l’information spatiale s’appuient sur l’exploitation des données textuelles. La communication médiée (SMS, tweets, etc.) véhiculant des informations spatiales prend une place prépondérante. L’objectif du travail présenté dans cet article consiste à extraire ces informations spatiales à partir d’un corpus authentique de SMS en français. Nous proposons un processus dans lequel, dans un premier temps, nous extrayons de nouvelles entités spatiales (par exemple, motpellier, montpeul à associer au toponyme Montpellier). Dans un second temps, nous identifions de nouvelles relations spatiales qui précèdent les entités spatiales (par exemple, sur, par, pres, etc.). La tâche est difficile et complexe en raison de la spécificité du langage SMS qui repose sur une écriture peu standardisée (apparition de nombreux lexiques, utilisation massive d’abréviations, variation par rapport à l’écrit classique, etc.). Les expérimentations qui ont été réalisées à partir du corpus 88milSMS mettent en relief la robustesse de notre système pour identifier de nouvelles entités et relations spatiales.Lire moins >
Résumé en anglais : [en]
Within the context of the currently available data masses, many works related to the analysis of spatial information are based on the exploitation of textual data. Mediated communication (SMS, tweets, etc.) conveying spatial ...
Lire la suite >Within the context of the currently available data masses, many works related to the analysis of spatial information are based on the exploitation of textual data. Mediated communication (SMS, tweets, etc.) conveying spatial information takes a prominent place. The objective of the work presented in this paper is to extract the spatial information from an authentic corpus of SMS in French. We propose a process in which, firstly, we extract new spatial entities (e.g. motpellier, montpeul associate with the place names Montpellier). Secondly, we identify new spatial relations that precede spatial entities (e.g. sur, par, pres, etc.). The task is very challenging and complex due of the specificity of SMS language which is based on weakly standardized writing (lexical creation, massive use of abbreviations, textual variants, etc.). The experiments that were carried out from the corpus 88milSMS highlight the robustness of our system in identifying new spatial entities and relations.Lire moins >
Lire la suite >Within the context of the currently available data masses, many works related to the analysis of spatial information are based on the exploitation of textual data. Mediated communication (SMS, tweets, etc.) conveying spatial information takes a prominent place. The objective of the work presented in this paper is to extract the spatial information from an authentic corpus of SMS in French. We propose a process in which, firstly, we extract new spatial entities (e.g. motpellier, montpeul associate with the place names Montpellier). Secondly, we identify new spatial relations that precede spatial entities (e.g. sur, par, pres, etc.). The task is very challenging and complex due of the specificity of SMS language which is based on weakly standardized writing (lexical creation, massive use of abbreviations, textual variants, etc.). The experiments that were carried out from the corpus 88milSMS highlight the robustness of our system in identifying new spatial entities and relations.Lire moins >
Langue :
Français
Comité de lecture :
Oui
Audience :
Internationale
Vulgarisation :
Non
Commentaire :
Pour la cinquième fois, après Nancy en 2002, Fès en 2004, Avignon en 2008 et Grenoble en 2012, l'AFCP (Association Francophone pour la Communication Parlée) et l'ATALA (Association pour le Traitement Automatique des Langues) organisent conjointement leur principale conférence afin de réunir en un seul lieu les deux communautés de l'analyse et du traitement des langues écrites, parlées et signées.Cette édition regroupera donc :les 31e Journées d'Etudes sur la Parole (JEP),la 23e conférence sur le Traitement Automatique des Langues Naturelles (TALN),la 18e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL).
Collections :
Source :
Fichiers
- https://hal-lirmm.ccsd.cnrs.fr/lirmm-01944710/document
- Accès libre
- Accéder au document
- https://hal-lirmm.ccsd.cnrs.fr/lirmm-01944710/file/Sarah-TALN2016.pdf
- Accès libre
- Accéder au document
- https://hal-lirmm.ccsd.cnrs.fr/lirmm-01944710/document
- Accès libre
- Accéder au document
- https://hal-lirmm.ccsd.cnrs.fr/lirmm-01944710/document
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- T106.pdf
- Accès libre
- Accéder au document
- Sarah-TALN2016.pdf
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- T106.pdf
- Accès libre
- Accéder au document
- Sarah-TALN2016.pdf
- Accès libre
- Accéder au document