
초록
우리는 사전 훈련된 컨볼루션 신경망을 사용하여 이미지 설명과 번역 사이의 간극을 줄이는 다중 모달 신경 기계 번역 모델을 소개합니다. 이 모델의 복합 주의 해독기는 대상 언어의 단어를 생성하는 과정에서 두 개의 별도 주의 메커니즘을 통해 소스 언어 단어와 이미지 부분에 독립적으로 주의를 기울이는 방법을 학습합니다. 우리는 이 모델이 단순히 역번역된 영역 내 다중 모달 데이터뿐만 아니라 대규모 일반 영역 텍스트 전용 기계 번역 코퍼스도 효율적으로 활용할 수 있음을 확인했습니다. 또한 Multi30k 데이터 세트에서 최신 연구 결과를 보고합니다( state-of-the-art results).