HyperAIHyperAI
il y a 2 mois

La Distance Géographique est le Nouveau Hyperparamètre : Une Étude de Cas pour la Recherche de la Langue Pré-entraînée Optimale pour la Traduction Automatique Anglais-isiZulu

Muhammad Umair Nasir; Innocent Amos Mchechesi
La Distance Géographique est le Nouveau Hyperparamètre : Une Étude de Cas pour la Recherche de la Langue Pré-entraînée Optimale pour la Traduction Automatique Anglais-isiZulu
Résumé

En raison de la disponibilité limitée de jeux de données et de ressources textuelles pour les langues à faibles ressources comme l'isiZulu, il existe un besoin considérable d'exploiter les connaissances issues des modèles pré-entraînés afin d'améliorer la traduction automatique à faibles ressources. De plus, le manque de techniques pour gérer les complexités des langues morphologiquement riches a exacerbé le développement inégal des modèles de traduction, laissant nombreuses langues africaines largement parlées en arrière. Cette étude explore les avantages potentiels du transfert d'apprentissage dans un cadre de traduction anglais-isiZulu. Les résultats montrent la valeur du transfert d'apprentissage à partir de langues apparentées pour améliorer les performances des modèles de traduction à faibles ressources, offrant ainsi une stratégie clé pour la traduction à faibles ressources à l'avenir. Nous avons recueilli des résultats provenant de 8 différents corpus linguistiques, dont un corpus multilingue, et constaté que le modèle isiXhosa-isiZulu surpassait toutes les autres langues, avec un score BLEU de 8,56 sur l'ensemble de test, soit une amélioration de 2,73 par rapport au modèle pré-entraîné sur le corpus multilingue. Nous avons également établi un nouveau coefficient, le Coefficient Géographique de Nasir (Nasir's Geographical Distance Coefficient - NGDC), qui facilite la sélection des langues pour les modèles pré-entraînés. Le NGDC a également indiqué que l'isiXhosa devrait être sélectionnée comme langue pour le modèle pré-entraîné.