
초록
본 연구에서는 다중 모드 신경 기계 번역(MMT)을 위해 시각적 특성과 텍스트 특성 간의 상호작용을 잠재 변수 모델을 통해 모델링하는 방법을 제안합니다. 이 잠재 변수는 외국어로 된 이미지와 그 설명의 다중 모드 확률적 임베딩으로 볼 수 있습니다. 이 변수는 목표 언어 디코더에서 사용되며, 이미지 특성을 예측하는 데도 활용됩니다. 중요한 점은, 본 모델 구조가 학습 과정에서 시각적 및 텍스트 입력을 이용하지만, 테스트 시에는 이미지가 필요하지 않다는 것입니다. 우리는 본 연구에서 잠재 변수 MMT 구조가 강력한 기준모델들을 크게 개선함을 보여주는데, 이 기준모델들은 다중 작업 학습 접근법(Elliott and Kádár, 2017)과 조건부 변분 오토인코더 접근법(Toyama et al., 2016)을 포함합니다. 마지막으로, (i) 이미지 특성을 조건으로만 사용하는 것뿐만 아니라 이를 예측하는 것, (ii) 잠재 변수에 인코딩된 정보량의 최소값에 대한 제약 조건 부과, 그리고 (iii) 추가적인 목표 언어 이미지 설명 데이터(즉, 합성 데이터)를 사용하여 학습함으로써 성능이 향상됨을 입증하였습니다.