HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 20 jours

DITING : un cadre d'évaluation multi-agents pour le benchmarking de la traduction de romans web

Enze Zhang Jiaying Wang Mengxi Xiao Jifei Liu Ziyan Kuang Rui Dong Eric Dong Sophia Ananiadou Min Peng Qianqian Xie

DITING : un cadre d'évaluation multi-agents pour le benchmarking de la traduction de romans web

Résumé

Les modèles linguistiques massifs (LLM) ont considérablement progressé dans le domaine de la traduction automatique (MT), mais leur efficacité en matière de traduction de romans web reste encore peu claire. Les benchmarks existants s’appuient sur des métriques superficielles, incapables de capturer les caractéristiques distinctives de ce genre littéraire. Pour combler ces lacunes, nous introduisons DITING, le premier cadre d’évaluation complet dédié à la traduction de romans web, qui évalue la fidélité narrative et culturelle selon six dimensions : traduction des expressions idiomatiques, gestion de l’ambiguïté lexicale, localisation des terminologies, cohérence des temps verbaux, résolution des pronoms zéro et sécurité culturelle. Ce cadre repose sur plus de 18 000 paires de phrases chinois-anglais annotées par des experts. Nous proposons également AgentEval, un cadre d’évaluation multi-agents piloté par le raisonnement, qui simule le processus de délibération experte afin d’évaluer la qualité de traduction au-delà de la simple correspondance lexicale, atteignant la corrélation la plus élevée avec les jugements humains parmi les sept métriques automatiques testées. Pour faciliter la comparaison entre métriques, nous avons développé MetricAlign, un jeu de données méta-évaluation comprenant 300 paires de phrases annotées avec des étiquettes d’erreurs et des scores scalaires de qualité. Une évaluation approfondie de quatorze modèles ouverts, fermés et commerciaux révèle que les LLM entraînés en chinois surpassent leurs homologues étrangers plus volumineux, et que DeepSeek-V3 produit les traductions les plus fidèles et stylistiquement cohérentes. Ce travail établit un nouveau paradigme pour l’exploration de la traduction de romans web fondée sur les LLM, tout en offrant des ressources publiques destinées à stimuler les recherches futures.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
DITING : un cadre d'évaluation multi-agents pour le benchmarking de la traduction de romans web | Articles de recherche | HyperAI