
초록
우리는 시각적 특성을 인코더와 디코더의 다양한 부분에 통합하는 다중 모드, 주의 기반 신경망 기계 번역(NMT) 모델을 소개합니다. 우리는 사전 학습된 컨볼루션 신경망을 사용하여 추출한 전역 이미지 특성을 (i) 소스 문장의 단어로, (ii) 인코더 은닉 상태를 초기화하기 위해, 그리고 (iii) 디코더 은닉 상태를 초기화하기 위한 추가 데이터로 활용합니다. 실험에서 우리는 이러한 다양한 방법으로 전역 이미지 특성을 통합할 때 각 방법이 어떻게 비교되는지 평가하고, 어떤 방법이 가장 우수한 성능을 보이는지를 분석합니다. 또한 합성된 다중 모드, 다국어 데이터를 추가했을 때의 영향을 연구하여, 추가 데이터가 다중 모드 모델에 긍정적인 영향을 미치는 것을 확인했습니다. 우리는 새로운 최고 수준의 결과를 보고하며, 우리의 최상의 모델들은 Multi30k 데이터 세트에서 모든 평가 지표에 따라 비교 가능한 문구 기반 통계적 기계 번역(PBSMT) 모델보다 크게 향상되었습니다. 우리所知,这是首次纯神经模型在该数据集的所有评估指标上显著优于PBSMT模型。注:最后一句中“我们所知”部分在韩文中通常会翻译为“우리가 알고 있는 한”,以保持句子的连贯性和正式性。因此,完整的翻译如下:우리가 알고 있는 한, 이는 해당 데이터 세트에서 모든 평가 지표에서 PBSMT 모델보다 유의미하게 우수한 성능을 보인 첫 번째 순수 신경망 모델입니다.