16일 전

다중모달 트랜스포머를 활용한 다중모달 기계 번역

{Xiaojun Wan, Shaowei Yao}
다중모달 트랜스포머를 활용한 다중모달 기계 번역
초록

다중모달 기계 번역(Multimodal Machine Translation, MMT)은 번역 품질 향상을 위해 일반적으로 정적 이미지와 같은 다른 모달리티의 정보를 도입하는 것을 목표로 한다. 기존 연구들은 다양한 통합 방법을 제안해왔지만, 대부분의 방법들은 다중 모달리티 간의 상대적 중요도를 고려하지 않는다. 모든 모달리티를 동일하게 취급할 경우, 중요도가 낮은 모달리티로부터 과도하게 불필요한 정보를 인코딩하게 되는 문제가 발생할 수 있다. 본 논문에서는 Transformer에 다중모달 자기주의(Multimodal Self-Attention)를 도입하여 위의 문제를 해결한다. 제안된 방법은 텍스트 기반으로 이미지의 표현을 학습함으로써, 이미지 내 관련 없는 정보를 인코딩하는 것을 방지한다. 실험 및 시각화 분석을 통해 제안 모델이 시각 정보로부터 실질적인 이점을 얻으며, 다양한 지표에서 기존 연구 및 경쟁적 기준 모델들을 상당히 우수하게 성능을 발휘함을 확인하였다.

다중모달 트랜스포머를 활용한 다중모달 기계 번역 | 최신 연구 논문 | HyperAI초신경