HyperAIHyperAI
il y a 2 mois

Traducteur sicilien : Une recette pour la TMA à faibles ressources

Eryk Wdowiak
Traducteur sicilien : Une recette pour la TMA à faibles ressources
Résumé

Avec 17 000 paires de phrases traduites du sicilien à l'anglais, Arba Sicula a développé le premier traducteur neuronal pour la langue sicilienne. En utilisant de petits vocabulaires de sous-mots, nous avons formé des modèles Transformer de petite taille avec des paramètres de dropout élevés et obtenu des scores BLEU dans les années 20 supérieures. Nous avons ensuite complété notre jeu de données avec des techniques de back-translation et de traduction multilingue, ce qui nous a permis d'améliorer nos scores jusqu'à atteindre la moyenne haute des années 30. Nous attribuons également notre succès à l'intégration d'informations théoriques dans notre jeu de données. Avant la formation, nous avons orienté le vocabulaire de sous-mots vers les désinences que l'on trouve dans un manuel scolaire. De plus, nous avons inclus des exercices tirés de manuels scolaires dans notre jeu de données.

Traducteur sicilien : Une recette pour la TMA à faibles ressources | Articles de recherche récents | HyperAI