HyperAIHyperAI
il y a 17 jours

Itihasa : Un grand corpus pour la traduction du sanskrit vers l’anglais

Rahul Aralikatte, Miryam de Lhoneux, Anoop Kunchukuttan, Anders Søgaard
Itihasa : Un grand corpus pour la traduction du sanskrit vers l’anglais
Résumé

Ce travail présente Itihasa, un grand ensemble de données de traduction comprenant 93 000 paires de vers en sanskrit (shlokas) et leurs traductions en anglais. Ces vers sont extraits de deux épopées indiennes, le Rāmāyaṇa et le Mahābhārata. Nous détaillons d'abord les motivations qui ont conduit à la constitution de ce corpus, puis présentons une analyse empirique visant à mettre en évidence ses particularités. Ensuite, nous évaluons les performances des modèles standards de traduction sur cet ensemble de données et montrons que même les architectures de pointe basées sur les transformateurs se révèlent insuffisantes, soulignant ainsi la complexité intrinsèque de ce jeu de données.