17일 전

ACES: 기계 번역 지표 평가를 위한 번역 정확도 도전 세트

Chantal Amrhein, Nikita Moghe, Liane Guillou
ACES: 기계 번역 지표 평가를 위한 번역 정확도 도전 세트
초록

매년 기계 번역(MT) 평가 지표가 인간 평가와의 상관관계를 높여가고 있는 상황에서, 이러한 지표가 문장 수준에서 가지는 한계를 이해하는 것은 매우 중요하다. 특히, 기계 번역에서 정확도 오류가 발생할 경우, 법률이나 의료와 같은 특정 맥락에서는 심각한 결과를 초래할 수 있으므로, 이러한 상황에서 지표의 행동 특성을 조사하는 것이 중요하다. 본 연구에서는 단어나 문자 수준의 단순한 왜곡부터 담화적 맥락과 실제 세계 지식에 기반한 더 복잡한 오류까지 총 68가지 현상을 포함하는 번역 정확도 도전 세트(ACES)를 구축하였다. 우리는 ACES를 활용해 WMT 2022 평가 지표 공동 과제에 제출된 다양한 MT 지표들을 평가하고, 지표 개발자들에게 일반적인 권고사항을 도출하기 위한 여러 분석을 수행하였다. 제안하는 권고사항은 다음과 같다. a) 서로 다른 강점을 지닌 지표들을 결합할 것, b) 번역 결과의 표면적 일치보다 원문에 더 큰 가중치를 부여하는 지표를 개발할 것, c) 다국어 임베딩을 통해 제공되는 정보를 넘어서 추가적인 언어별 특수 정보를 명시적으로 모델링할 것.