11일 전

이미지를 무한으로 압축하기: 다중모달 기계번역을 위한 역방향 지식 증류

Ru Peng, Yawen Zeng, Junbo Zhao
이미지를 무한으로 압축하기: 다중모달 기계번역을 위한 역방향 지식 증류
초록

다중모달 기계 번역(MMT)에 관한 기존 연구들은 이중언어 설정을 발전시키기 위해 추가적인 정렬된 시각 정보를 도입한다. 그러나 다중모달 데이터셋에서 이미지가 반드시 필요하다는 제약은 MMT의 발전을 크게 저해한다. 즉, [이미지, 원문 텍스트, 대상 텍스트]의 정렬된 형태를 요구하기 때문이다. 이 제약은 일반적인 NMT 설정과 마찬가지로 추론 단계에서 정렬된 이미지가 제공되지 않을 경우 특히 문제를 야기한다. 따라서 본 연구에서는 역방향 지식 전달(inversion knowledge distillation) 기반의 새로운 MMT 프레임워크인 IKD-MMT를 제안하여 이미지 없이도 추론을 수행할 수 있도록 한다. 특히, 다중모달 특징 생성기와 지식 전달 모듈을 결합하여 원문 텍스트(단독)를 입력으로 받아 직접 다중모달 특징을 생성한다. 이미지 없이 추론을 지원할 수 있는 가능성을 탐구한 이전 연구는 일부 존재하지만, 그 성능은 여전히 이미지가 필수인 번역 성능에 미치지 못하고 있다. 본 연구의 실험 결과, 제안한 방법이 이미지 없이도 이미지가 필수인 모든 기존 프레임워크와 경쟁하거나 거의 모든 경우에서 이를 능가하는 최초의 접근임을 확인하였으며, 일반적으로 사용되는 Multi30k 벤치마크에서 최고 수준의 성능을 달성하였다. 본 연구의 코드 및 데이터는 다음 주소에서 공개된다: https://github.com/pengr/IKD-mmt/tree/master.

이미지를 무한으로 압축하기: 다중모달 기계번역을 위한 역방향 지식 증류 | 최신 연구 논문 | HyperAI초신경