다이나믹 컨텍스트 가이드드 캡슐 네트워크를 활용한 다모달 기계 번역

다중모달 기계 번역(Multimodal Machine Translation, MMT)은 주로 텍스트 중심 번역을 시각적 특징을 활용하여 향상시키는 데 초점을 맞추며, 컴퓨터 비전과 자연어 처리 분야 모두에서 큰 주목을 받고 있다. 현재 대부분의 MMT 모델은 시각적 특징을 활용하기 위해 주의 메커니즘(attention mechanism), 전역적 맥락 모델링, 또는 다중모달 공동 표현 학습을 활용하고 있다. 그러나 주의 메커니즘은 모달 간 충분한 의미적 상호작용을 제공하지 못하는 반면, 나머지 두 가지 방법은 고정된 시각적 맥락을 제공하므로 번역 생성 시 관측되는 변동성을 적절히 모델링하기에 부적합하다. 이러한 문제를 해결하기 위해 본 논문에서는 MMT를 위한 새로운 동적 맥락 유도 캡슐 네트워크(Dynamic Context-guided Capsule Network, DCCN)를 제안한다. 구체적으로, 디코딩의 각 타임스텝에서 먼저 기존의 소스-타겟 주의 메커니즘을 사용하여 타임스텝별 소스 측 맥락 벡터를 생성한다. 이후 DCCN은 이 벡터를 입력으로 받아, 맥락 유도 동적 라우팅 메커니즘을 통해 반복적으로 관련된 시각적 특징을 추출한다. 특히, 입력 이미지를 전역적 및 지역적 시각적 특징으로 표현하고, 서로 병렬로 작동하는 두 개의 DCCN을 도입하여 다양한 해상도의 시각적 특징을 기반으로 다중모달 맥락 벡터를 모델링한다. 마지막으로, 두 개의 다중모달 맥락 벡터를 융합하여 디코더에 통합하여 타겟 단어를 예측한다. 영어 → 독일어 및 영어 → 프랑스어 번역을 위한 Multi30K 데이터셋에서 수행한 실험 결과는 DCCN의 우수성을 입증한다. 본 연구의 코드는 https://github.com/DeepLearnXMU/MM-DCCN 에서 공개되어 있다.