HyperAIHyperAI
il y a 2 mois

Restauration des diacritiques à l'aide de BERT avec une analyse sur la langue tchèque

Jakub Náplava; Milan Straka; Jana Straková
Restauration des diacritiques à l'aide de BERT avec une analyse sur la langue tchèque
Résumé

Nous proposons une nouvelle architecture pour la restauration des diacritiques basée sur des plongements contextuels, notamment BERT, et nous l'évaluons sur 12 langues comportant des diacritiques. De plus, nous effectuons une analyse d'erreur détaillée sur le tchèque, une langue morphologiquement riche avec un haut degré de diacritisation. Nous soulignons que nous avons manuellement annoté toutes les mauvaises prédictions, montrant qu'environ 44% d'entre elles ne sont en réalité pas des erreurs, mais plutôt des variantes plausibles (19%) ou des corrections apportées par le système à des données erronées (25%). Enfin, nous catégorisons en détail les erreurs réelles. Nous mettons le code à disposition sur https://github.com/ufal/bert-diacritics-restoration.

Restauration des diacritiques à l'aide de BERT avec une analyse sur la langue tchèque | Articles de recherche récents | HyperAI