
초록
다중모달 기계 번역(MMT)에 관한 기존 연구들은 이중언어 설정을 발전시키기 위해 추가적인 정렬된 시각 정보를 도입한다. 그러나 다중모달 데이터셋에서 이미지가 반드시 필요하다는 제약은 MMT의 발전을 크게 저해한다. 즉, [이미지, 원문 텍스트, 대상 텍스트]의 정렬된 형태를 요구하기 때문이다. 이 제약은 일반적인 NMT 설정과 마찬가지로 추론 단계에서 정렬된 이미지가 제공되지 않을 경우 특히 문제를 야기한다. 따라서 본 연구에서는 역방향 지식 전달(inversion knowledge distillation) 기반의 새로운 MMT 프레임워크인 IKD-MMT를 제안하여 이미지 없이도 추론을 수행할 수 있도록 한다. 특히, 다중모달 특징 생성기와 지식 전달 모듈을 결합하여 원문 텍스트(단독)를 입력으로 받아 직접 다중모달 특징을 생성한다. 이미지 없이 추론을 지원할 수 있는 가능성을 탐구한 이전 연구는 일부 존재하지만, 그 성능은 여전히 이미지가 필수인 번역 성능에 미치지 못하고 있다. 본 연구의 실험 결과, 제안한 방법이 이미지 없이도 이미지가 필수인 모든 기존 프레임워크와 경쟁하거나 거의 모든 경우에서 이를 능가하는 최초의 접근임을 확인하였으며, 일반적으로 사용되는 Multi30k 벤치마크에서 최고 수준의 성능을 달성하였다. 본 연구의 코드 및 데이터는 다음 주소에서 공개된다: https://github.com/pengr/IKD-mmt/tree/master.