
摘要
随着机器翻译(MT)评估指标每年在与人类判断的相关性方面持续提升,深入理解这些指标在句子级别上的局限性变得尤为重要。特别是,当机器翻译出现准确性错误时,评估指标的表现值得重点关注,因为在某些关键领域(如法律、医疗)这类错误可能带来严重后果。为此,我们构建了ACES——一个翻译准确性挑战数据集,涵盖68种不同的语言现象,从词汇/字符层面的简单扰动,到基于语篇连贯性及现实世界知识的复杂错误。我们利用ACES对多种MT评估指标进行了评估,包括参与WMT 2022评估指标共享任务的各类方法,并通过多项分析得出了面向指标开发者的通用建议:第一,应融合具有不同优势的多种评估指标;第二,应开发更重视源语言信息、减少对参考译文表面重合度依赖的评估指标;第三,应显式建模超出多语言嵌入所能提供的语言特异性信息。