Elaboration of a practical lemmatiser for ...
Type de document :
Compte-rendu et recension critique d'ouvrage
Titre :
Elaboration of a practical lemmatiser for Latin using Artificial Intelligence
Auteur(s) :
Verkerk, Philippe [Auteur]
Laboratoire de Physique des Lasers, Atomes et Molécules - UMR 8523 [PhLAM]
Laboratoire de Physique des Lasers, Atomes et Molécules - UMR 8523 [PhLAM]
Titre de la revue :
Archivum Latinitatis Medii Aevi
Éditeur :
Académie des Inscriptions et Belles Lettres
Date de publication :
2024
ISSN :
1376-7453
Mot(s)-clé(s) en anglais :
Text Annotation
Lemmatisation
Artificial Intelligence
Latin
Lemmatisation
Artificial Intelligence
Latin
Discipline(s) HAL :
Informatique [cs]
Résumé :
Je présente ici un lemmatiseur prêt à l'emploi pour convertir un fichier texte en un fichier annoté aux standards du LASLA (fichier APN). Il s'agit d'un code hybrid qui associe une décomposition des formes suivant les ...
Lire la suite >Je présente ici un lemmatiseur prêt à l'emploi pour convertir un fichier texte en un fichier annoté aux standards du LASLA (fichier APN). Il s'agit d'un code hybrid qui associe une décomposition des formes suivant les régles de flexion et une désambiguïsation reposant sur l'intelligence artificielle. La partie IA dérive de Latin-BERT et a été entraînée spécifiquement avec les textes annotés au LASLA. Ce lemmatiseur a été testé sur l'un des textes de Cidéron annotés au LASLA et son efficacité globale est de 97%, avec une précision variant de 98,5% à 99,4% pour chacune des sous-tâches. Il devrait bientôt être disponible pour effectuer une lemmatisation en ligne sur le site web d'Hyperbase.Lire moins >
Lire la suite >Je présente ici un lemmatiseur prêt à l'emploi pour convertir un fichier texte en un fichier annoté aux standards du LASLA (fichier APN). Il s'agit d'un code hybrid qui associe une décomposition des formes suivant les régles de flexion et une désambiguïsation reposant sur l'intelligence artificielle. La partie IA dérive de Latin-BERT et a été entraînée spécifiquement avec les textes annotés au LASLA. Ce lemmatiseur a été testé sur l'un des textes de Cidéron annotés au LASLA et son efficacité globale est de 97%, avec une précision variant de 98,5% à 99,4% pour chacune des sous-tâches. Il devrait bientôt être disponible pour effectuer une lemmatisation en ligne sur le site web d'Hyperbase.Lire moins >
Résumé en anglais : [en]
I present here a plug-and-play lemmatiser that converts a plain text into an annotated file in LASLA's standard (APN-file). It is a hybrid code that involves a rule-based decomposition of the forms and a AI-based disambiguation. ...
Lire la suite >I present here a plug-and-play lemmatiser that converts a plain text into an annotated file in LASLA's standard (APN-file). It is a hybrid code that involves a rule-based decomposition of the forms and a AI-based disambiguation. The AI part derives from Latin-BERT, trained on purpose with the texts annotated at the LASLA. This lemmatiser has been tested on one of the Cicero's texts annotated by the LASLA and its overall accuracy is 97%, with sub-tasks' accuracies ranging from 98.5% to 99.4%. It will be soon available for on-line lemmatisation on the Hyperbase web-site.Lire moins >
Lire la suite >I present here a plug-and-play lemmatiser that converts a plain text into an annotated file in LASLA's standard (APN-file). It is a hybrid code that involves a rule-based decomposition of the forms and a AI-based disambiguation. The AI part derives from Latin-BERT, trained on purpose with the texts annotated at the LASLA. This lemmatiser has been tested on one of the Cicero's texts annotated by the LASLA and its overall accuracy is 97%, with sub-tasks' accuracies ranging from 98.5% to 99.4%. It will be soon available for on-line lemmatisation on the Hyperbase web-site.Lire moins >
Langue :
Anglais
Vulgarisation :
Non
Source :
Fichiers
- document
- Accès libre
- Accéder au document
- tagueur_AI_3.pdf
- Accès libre
- Accéder au document