Command Palette

Search for a command to run...

20 天前

DITING:用于基准测试网络小说翻译的多Agent评估框架

Enze Zhang Jiaying Wang Mengxi Xiao Jifei Liu Ziyan Kuang Rui Dong Eric Dong Sophia Ananiadou Min Peng Qianqian Xie

DITING:用于基准测试网络小说翻译的多Agent评估框架

摘要

大规模语言模型(LLMs)在机器翻译(MT)领域取得了显著进展,但其在网络小说翻译中的实际效果仍不明确。现有的评估基准主要依赖于表面层面的指标,难以捕捉该文体的独特特征。为弥补这一空白,我们提出了 DITING——首个面向网络小说翻译的综合性评估框架,从六个维度系统评估翻译的叙事一致性和文化忠实度:成语翻译、词汇歧义处理、术语本地化、时态一致性、零代词消解以及文化安全性,并基于超过18,000对专家标注的中英句子对提供支持。为进一步提升评估能力,我们提出 AgentEval,一种基于推理驱动的多智能体评估框架,通过模拟专家间的深度讨论过程,实现超越词法重叠的翻译质量评估,在七种测试的自动评估指标中与人工判断的相关性达到最高。为支持不同评估指标之间的公平比较,我们构建了 MetricAlign——一个包含300对句子的元评估数据集,每对句子均附有错误标签和标量质量评分。对十四种开源、闭源及商业模型的全面评估表明,经过中文语料训练的大型语言模型在性能上优于规模更大的外国模型,且 DeepSeek-V3 在忠实度与风格一致性方面表现最佳。本研究建立了一种基于大模型的网络小说翻译新范式,并公开了相关资源,以推动该领域的后续研究发展。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供