Elaboration of a practical lemmatiser for ...
Document type :
Compte-rendu et recension critique d'ouvrage
Title :
Elaboration of a practical lemmatiser for Latin using Artificial Intelligence
Author(s) :
Verkerk, Philippe [Auteur]
Laboratoire de Physique des Lasers, Atomes et Molécules - UMR 8523 [PhLAM]
Laboratoire de Physique des Lasers, Atomes et Molécules - UMR 8523 [PhLAM]
Journal title :
Archivum Latinitatis Medii Aevi
Publisher :
Académie des Inscriptions et Belles Lettres
Publication date :
2024
ISSN :
1376-7453
English keyword(s) :
Text Annotation
Lemmatisation
Artificial Intelligence
Latin
Lemmatisation
Artificial Intelligence
Latin
HAL domain(s) :
Informatique [cs]
French abstract :
Je présente ici un lemmatiseur prêt à l'emploi pour convertir un fichier texte en un fichier annoté aux standards du LASLA (fichier APN). Il s'agit d'un code hybrid qui associe une décomposition des formes suivant les ...
Show more >Je présente ici un lemmatiseur prêt à l'emploi pour convertir un fichier texte en un fichier annoté aux standards du LASLA (fichier APN). Il s'agit d'un code hybrid qui associe une décomposition des formes suivant les régles de flexion et une désambiguïsation reposant sur l'intelligence artificielle. La partie IA dérive de Latin-BERT et a été entraînée spécifiquement avec les textes annotés au LASLA. Ce lemmatiseur a été testé sur l'un des textes de Cidéron annotés au LASLA et son efficacité globale est de 97%, avec une précision variant de 98,5% à 99,4% pour chacune des sous-tâches. Il devrait bientôt être disponible pour effectuer une lemmatisation en ligne sur le site web d'Hyperbase.Show less >
Show more >Je présente ici un lemmatiseur prêt à l'emploi pour convertir un fichier texte en un fichier annoté aux standards du LASLA (fichier APN). Il s'agit d'un code hybrid qui associe une décomposition des formes suivant les régles de flexion et une désambiguïsation reposant sur l'intelligence artificielle. La partie IA dérive de Latin-BERT et a été entraînée spécifiquement avec les textes annotés au LASLA. Ce lemmatiseur a été testé sur l'un des textes de Cidéron annotés au LASLA et son efficacité globale est de 97%, avec une précision variant de 98,5% à 99,4% pour chacune des sous-tâches. Il devrait bientôt être disponible pour effectuer une lemmatisation en ligne sur le site web d'Hyperbase.Show less >
English abstract : [en]
I present here a plug-and-play lemmatiser that converts a plain text into an annotated file in LASLA's standard (APN-file). It is a hybrid code that involves a rule-based decomposition of the forms and a AI-based disambiguation. ...
Show more >I present here a plug-and-play lemmatiser that converts a plain text into an annotated file in LASLA's standard (APN-file). It is a hybrid code that involves a rule-based decomposition of the forms and a AI-based disambiguation. The AI part derives from Latin-BERT, trained on purpose with the texts annotated at the LASLA. This lemmatiser has been tested on one of the Cicero's texts annotated by the LASLA and its overall accuracy is 97%, with sub-tasks' accuracies ranging from 98.5% to 99.4%. It will be soon available for on-line lemmatisation on the Hyperbase web-site.Show less >
Show more >I present here a plug-and-play lemmatiser that converts a plain text into an annotated file in LASLA's standard (APN-file). It is a hybrid code that involves a rule-based decomposition of the forms and a AI-based disambiguation. The AI part derives from Latin-BERT, trained on purpose with the texts annotated at the LASLA. This lemmatiser has been tested on one of the Cicero's texts annotated by the LASLA and its overall accuracy is 97%, with sub-tasks' accuracies ranging from 98.5% to 99.4%. It will be soon available for on-line lemmatisation on the Hyperbase web-site.Show less >
Language :
Anglais
Popular science :
Non
Source :
Files
- document
- Open access
- Access the document
- tagueur_AI_3.pdf
- Open access
- Access the document