
초록
우리는 병렬 시각적 및 텍스트 정보를 활용하는 새로운 다중모달 기계 번역 모델을 소개합니다. 본 모델은 공유 시각-언어 임베딩과 번역기의 학습을 공동으로 최적화합니다. 모델은 시각적 의미와 해당 텍스트 의미를 연결하는 시각 주의 지향 메커니즘(visual attention grounding mechanism)을 활용합니다. 우리의 접근 방식은 Multi30K 및 애매한 COCO 데이터셋에서 경쟁력 있는 최신 결과를 달성하였습니다. 또한, 실제 국제 온라인 쇼핑 상황을 시뮬레이션하기 위해 새로운 다국어 다중모달 제품 설명 데이터셋을 수집하였습니다. 이 데이터셋에서 우리의 시각 주의 지향 모델은 다른 방법들보다 크게 우수한 성능을 보였습니다.