TransLiTex: A Parallel Corpus of Translated ...
Type de document :
Communication dans un congrès avec actes
Titre :
TransLiTex: A Parallel Corpus of Translated Literary Texts
Auteur(s) :
Fraisse, Amel [Auteur]
Groupe d'Études et de Recherche Interdisciplinaire en Information et COmmunication - ULR 4073 [GERIICO ]
Tran, Quoc-Tan [Auteur]
Groupe d'Études et de Recherche Interdisciplinaire en Information et COmmunication - ULR 4073 [GERIICO ]
Jenn, Ronald [Auteur]
Centre d'Études en Civilisations, Langues et Lettres Étrangères - ULR 4074 [CECILLE]
Paroubek, Patrick [Auteur]
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur [LIMSI]
Fishkin, Shelley [Auteur]
Stanford University

Groupe d'Études et de Recherche Interdisciplinaire en Information et COmmunication - ULR 4073 [GERIICO ]
Tran, Quoc-Tan [Auteur]
Groupe d'Études et de Recherche Interdisciplinaire en Information et COmmunication - ULR 4073 [GERIICO ]
Jenn, Ronald [Auteur]

Centre d'Études en Civilisations, Langues et Lettres Étrangères - ULR 4074 [CECILLE]
Paroubek, Patrick [Auteur]
Laboratoire d'Informatique pour la Mécanique et les Sciences de l'Ingénieur [LIMSI]
Fishkin, Shelley [Auteur]
Stanford University
Éditeur(s) ou directeur(s) scientifique(s) :
Erhong Yang
Le Sun
Le Sun
Titre de la manifestation scientifique :
Eleventh International Conference on Language Resources and Evaluation (LREC 2018)
Organisateur(s) de la manifestation scientifique :
Beijing Advanced Innovation Center for Language Resources
Ville :
Miyazaki
Pays :
Japon
Date de début de la manifestation scientifique :
2018-05-08
Titre de la revue :
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)
Éditeur :
European Language Resources Association (ELRA)
Mot(s)-clé(s) en anglais :
Multilingual corpus
Comparable corpus
Transnational texts
Multilingual Bibliographic data
Comparable corpus
Transnational texts
Multilingual Bibliographic data
Discipline(s) HAL :
Informatique [cs]
Sciences de l'Homme et Société/Sciences de l'information et de la communication
Sciences de l'Homme et Société/Sciences de l'information et de la communication
Résumé en anglais : [en]
In this paper, we present our ongoing research work to create a massively parallel corpus of translated literary texts which is useful for applications in computational linguistics, translation studies and cross-linguistic ...
Lire la suite >In this paper, we present our ongoing research work to create a massively parallel corpus of translated literary texts which is useful for applications in computational linguistics, translation studies and cross-linguistic corpus studies. Using a crowdsourcing approach, we identified and collected 29 translations of Mark Twain's Adventures of Huckleberry Finn published in 23 languages including less-resourced languages. We report on the current status of the corpus, with 5 chapter-aligned translations (English-Dutch, two English-Hungarian, English-Polish and English-Russian). We evaluated the correctness of chapter alignment by computing the percentage of common words between the English version and the translated ones. Results show high percentages that vary between 43% and 64% proving the high correctness of chapter alignment.Lire moins >
Lire la suite >In this paper, we present our ongoing research work to create a massively parallel corpus of translated literary texts which is useful for applications in computational linguistics, translation studies and cross-linguistic corpus studies. Using a crowdsourcing approach, we identified and collected 29 translations of Mark Twain's Adventures of Huckleberry Finn published in 23 languages including less-resourced languages. We report on the current status of the corpus, with 5 chapter-aligned translations (English-Dutch, two English-Hungarian, English-Polish and English-Russian). We evaluated the correctness of chapter alignment by computing the percentage of common words between the English version and the translated ones. Results show high percentages that vary between 43% and 64% proving the high correctness of chapter alignment.Lire moins >
Langue :
Anglais
Comité de lecture :
Oui
Audience :
Internationale
Vulgarisation :
Non
Collections :
Source :
Fichiers
- https://hal.archives-ouvertes.fr/hal-01827884/document
- Accès libre
- Accéder au document
- https://hal.archives-ouvertes.fr/hal-01827884/document
- Accès libre
- Accéder au document
- https://hal.archives-ouvertes.fr/hal-01827884/document
- Accès libre
- Accéder au document
- document
- Accès libre
- Accéder au document
- 11_W34.pdf
- Accès libre
- Accéder au document