
초록
다중 모달 기계 번역(MMT)은 시각 정보를 도입함으로써 번역 품질을 향상시킵니다. 그러나 기존의 MMT 모델은 이미지가 텍스트와 관련 없는 정보를 포함할 수 있다는 문제를 간과하고 있으며, 이로 인해 모델에 많은 노이즈가 발생하여 번역 품질에 부정적인 영향을 미칩니다. 본 논문은 다중 모달 기계 번역을 위한 새로운 Gumbel-Attention을 제안하며, 이미지 특징 중 텍스트와 관련된 부분을 선택합니다. 구체적으로, 기존의 주의 기반 방법과 달리, 본 연구는 이미지 정보를 미분 가능한 방식으로 선택함으로써 이미지 특징의 무의미한 부분을 자동으로 제거합니다. 실험 결과, 제안한 방법은 텍스트와 관련된 이미지 특징을 유지함과 동시에, 남은 특징들이 MMT 모델이 더 우수한 번역을 생성하는 데 기여함을 입증하였습니다.