
초록
텍스트와 이미지 간에는 공통적인 의미 체계가 존재한다. 원본 언어의 문장을 제공받았을 때, 시각적 장면을 활용하는 것이 대상 언어로의 번역에 도움이 될까? 기존의 다모달 신경망 기반 번역 방법(MNMT)은 학습 시 이중 번역 문장-이미지 쌍을 필요로 하며, 추론 시에도 원본 문장-이미지 쌍을 요구한다. 본 논문에서는 시각적 상상(visual imagination)을 통해 기계 번역을 수행하는 새로운 방법인 ImagiT를 제안한다. ImagiT는 먼저 원본 문장에서 시각적 표현을 생성하는 능력을 학습한 후, 원본 문장과 '상상된 표현(imagined representation)'을 함께 사용하여 대상 언어 번역을 생성한다. 기존 방법들과 달리, ImagiT는 추론 단계에서 원본 문장만을 필요로 한다. 실험 결과, ImagiT는 시각적 상상의 도움을 받아 텍스트 기반 신경망 기계 번역 기준 모델을 크게 상회함을 입증하였다. 추가 분석을 통해 ImagiT의 상상 과정이 손상 전략(degradation strategy)을 수행할 때 누락된 정보를 보완하는 데 기여함을 확인할 수 있었다.