
要約
機械翻訳(MT)の評価指標は年々人間の判断との相関性を高めつつあるが、その指標が文書セグメントレベルにおいてどのような限界を有するかを理解することは極めて重要である。特に、MTにおける正確性の誤りに直面した際の指標の挙動を調査することが重要である。これは、法的・医療的文脈などでは深刻な結果を招く可能性があるためである。本研究では、単語・文字レベルの簡単な摂動から、話法や現実世界の知識に基づくより複雑な誤りまでを含む、合計68種類の現象を含む「ACES」と呼ばれる翻訳正確性チャレンジデータセットを構築した。このACESを用いて、WMT 2022の指標共有タスクへの参加提出物を含む広範なMT評価指標を評価し、指標開発者に対する一般的な提言に至るための複数の分析を行った。本研究の提言は以下の通りである:a) 補完的な強みを持つ複数の指標を組み合わせること、b) 評価において翻訳元テキストの重みを高め、参照訳との表面的類似性の重みを低減する指標の開発、c) 多言語埋め込みによって得られる情報以外の言語固有の情報を明示的にモデル化すること。