
초록
다중 모드 기계 번역에 대한 이전 연구에서는 시각적 정보가 매우 특정한 경우, 예를 들어 텍스트 맥락만으로는 충분하지 않은 애매한 단어가 있는 경우에만 필요하다는 점이 밝혀졌습니다. 그 결과, 모델들은 이러한 정보를 무시하도록 학습하는 경향이 있습니다. 우리는 이 문제를 해결하기 위해 이미지를 두 번째 단계의 디코더에서만 사용하는 번역-정제 접근법을 제안합니다. 이 접근법은 좋은 초안 번역을 생성하고, 이를 개선하여 (i) 목표 언어의 텍스트 맥락(좌우 맥락 모두)을 더 잘 활용하며 (ii) 시각적 맥락을 활용하도록 공동으로 학습됩니다. 이 접근법은 최신 기술 수준의 결과를 도출합니다. 또한, 이 접근법이 소스 언어에서 잘못된 단어나 누락된 단어를 복구할 수 있는 능력을 가지고 있음을 보여줍니다.