HyperAIHyperAI

Command Palette

Search for a command to run...

vor 20 Tagen

DITING: Ein Multi-Agenten-Evaluierungsframework zur Benchmarking-Übersetzung von Web-Romanen

Enze Zhang Jiaying Wang Mengxi Xiao Jifei Liu Ziyan Kuang Rui Dong Eric Dong Sophia Ananiadou Min Peng Qianqian Xie

DITING: Ein Multi-Agenten-Evaluierungsframework zur Benchmarking-Übersetzung von Web-Romanen

Abstract

Große Sprachmodelle (LLMs) haben die maschinelle Übersetzung (MT) erheblich vorangebracht, doch ihre Wirksamkeit bei der Übersetzung von Webromane bleibt unklar. Bestehende Benchmark-Datenbanken stützen sich auf oberflächliche Metriken, die die charakteristischen Merkmale dieses Genres nicht adäquat erfassen. Um diese Lücken zu schließen, stellen wir DITING vor – den ersten umfassenden Bewertungsrahmen für die Übersetzung von Webromanen –, der die narrative und kulturelle Treue anhand von sechs Dimensionen bewertet: Idiomübersetzung, lexikalische Mehrdeutigkeit, Terminologie-Localisierung, Tempus-Konsistenz, Null-Pronomen-Auflösung und kulturelle Sicherheit. DITING wird durch über 18.000 von Experten annotierte Satzpaare im Chinesisch-Englisch-Bereich unterstützt. Weiterhin entwickeln wir AgentEval, einen auf Schlussfolgerung basierenden Multi-Agenten-Bewertungsrahmen, der die Experten-Diskussion nachahmt, um die Übersetzungsqualität über reine Lexikalische Überlappung hinaus zu bewerten und dabei die höchste Korrelation mit menschlichen Beurteilungen unter sieben getesteten automatischen Metriken erreicht. Um den Vergleich verschiedener Metriken zu ermöglichen, erstellen wir MetricAlign, eine Meta-Bewertungsdatenbank mit 300 Satzpaaren, die mit Fehlerkategorien und skalarer Qualitätsbewertung annotiert sind. Eine umfassende Evaluation von vierzehn offenen, geschlossenen und kommerziellen Modellen zeigt, dass LLMs, die auf chinesischen Daten trainiert wurden, größere ausländische Modelle übertreffen, und dass DeepSeek-V3 die treueste und stilistisch kohärenteste Übersetzung liefert. Unsere Arbeit etabliert ein neues Paradigma für die Erforschung der LLM-basierten Übersetzung von Webromanen und stellt öffentlich zugängliche Ressourcen bereit, um zukünftige Forschung voranzutreiben.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DITING: Ein Multi-Agenten-Evaluierungsframework zur Benchmarking-Übersetzung von Web-Romanen | Forschungsarbeiten | HyperAI