Command Palette

Search for a command to run...

20日前

DITING:ウェブ小説翻訳のベンチマーク評価を目的としたマルチエージェント評価フレームワーク

Enze Zhang Jiaying Wang Mengxi Xiao Jifei Liu Ziyan Kuang Rui Dong Eric Dong Sophia Ananiadou Min Peng Qianqian Xie

DITING:ウェブ小説翻訳のベンチマーク評価を目的としたマルチエージェント評価フレームワーク

要約

大規模言語モデル(LLM)は機械翻訳(MT)の分野において顕著な進展を遂げたが、ウェブ小説の翻訳における実効性については依然として明確でない。既存のベンチマークは、このジャンル特有の性質を捉えきれない表面的な指標に依存している。こうした課題を解決するため、本研究では、物語の整合性と文化的妥当性を6つの次元——慣用句の翻訳、語彙の曖昧性、用語の現地化、時制の整合性、ゼロ代名詞の解消、文化的安全性——にわたって評価する、ウェブ小説翻訳のための包括的評価フレームワーク「DITING」を提案する。本フレームワークは、18,000件を超える専門家がアノテーションした中国語-英語文対に基づいている。さらに、自動翻訳品質の評価を語彙の重複を超えて行うため、専門家による討議を模倣する推論駆動型マルチエージェント評価フレームワーク「AgentEval」を提案。この手法は、7つの検証済み自動指標の中で人間の判断と最も高い相関を達成した。指標間の比較を可能にするために、誤りラベルとスカラー形式の品質スコアが付与された300文対からなるメタ評価データセット「MetricAlign」も開発した。公開・非公開・商用の14種類のモデルを包括的に評価した結果、中国で訓練されたLLMがより大規模な外国モデルを上回り、特にDeepSeek-V3が最も忠実かつスタイル的に一貫した翻訳を実現していることが明らかになった。本研究は、LLMを活用したウェブ小説翻訳の新たなアプローチを確立し、今後の研究を推進するための公開リソースを提供する。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
DITING:ウェブ小説翻訳のベンチマーク評価を目的としたマルチエージェント評価フレームワーク | 論文 | HyperAI超神経