11일 전

다이나믹 컨텍스트 가이드드 캡슐 네트워크를 활용한 다모달 기계 번역

Huan Lin, Fandong Meng, Jinsong Su, Yongjing Yin, Zhengyuan Yang, Yubin Ge, Jie Zhou, Jiebo Luo
다이나믹 컨텍스트 가이드드 캡슐 네트워크를 활용한 다모달 기계 번역
초록

다중모달 기계 번역(Multimodal Machine Translation, MMT)은 주로 텍스트 중심 번역을 시각적 특징을 활용하여 향상시키는 데 초점을 맞추며, 컴퓨터 비전과 자연어 처리 분야 모두에서 큰 주목을 받고 있다. 현재 대부분의 MMT 모델은 시각적 특징을 활용하기 위해 주의 메커니즘(attention mechanism), 전역적 맥락 모델링, 또는 다중모달 공동 표현 학습을 활용하고 있다. 그러나 주의 메커니즘은 모달 간 충분한 의미적 상호작용을 제공하지 못하는 반면, 나머지 두 가지 방법은 고정된 시각적 맥락을 제공하므로 번역 생성 시 관측되는 변동성을 적절히 모델링하기에 부적합하다. 이러한 문제를 해결하기 위해 본 논문에서는 MMT를 위한 새로운 동적 맥락 유도 캡슐 네트워크(Dynamic Context-guided Capsule Network, DCCN)를 제안한다. 구체적으로, 디코딩의 각 타임스텝에서 먼저 기존의 소스-타겟 주의 메커니즘을 사용하여 타임스텝별 소스 측 맥락 벡터를 생성한다. 이후 DCCN은 이 벡터를 입력으로 받아, 맥락 유도 동적 라우팅 메커니즘을 통해 반복적으로 관련된 시각적 특징을 추출한다. 특히, 입력 이미지를 전역적 및 지역적 시각적 특징으로 표현하고, 서로 병렬로 작동하는 두 개의 DCCN을 도입하여 다양한 해상도의 시각적 특징을 기반으로 다중모달 맥락 벡터를 모델링한다. 마지막으로, 두 개의 다중모달 맥락 벡터를 융합하여 디코더에 통합하여 타겟 단어를 예측한다. 영어 → 독일어 및 영어 → 프랑스어 번역을 위한 Multi30K 데이터셋에서 수행한 실험 결과는 DCCN의 우수성을 입증한다. 본 연구의 코드는 https://github.com/DeepLearnXMU/MM-DCCN 에서 공개되어 있다.

다이나믹 컨텍스트 가이드드 캡슐 네트워크를 활용한 다모달 기계 번역 | 최신 연구 논문 | HyperAI초신경