MaMMUT: 다중모달 작업을 위한 공동 학습을 위한 간단한 아키텍처

언어 모델의 개발은 인코더-디코더 구조에서 디코더 중심 구조로 이동해 왔다. 또한, 가장 인기 있는 두 가지 다중 모달 작업인 생성형 작업과 대조형 작업은 하나의 아키텍처에 효과적으로 통합하기 어렵고, 이후 작업에 대해서도 추가적인 적응이 필요하다는 점을 관찰할 수 있다. 본 연구에서는 다중 모달 작업을 위한 디코더 중심 모델을 활용한 새로운 학습 패러다임을 제안한다. 이는 놀랍도록 효과적인 방식으로 다양한 시각-언어 작업을 동시에 학습할 수 있게 한다. 이는 단순한 모델인 MaMMUT를 통해 구현되며, 단일 시각 인코더와 텍스트 디코더로 구성되어 있다. 텍스트 디코더에 새로운 이중 통과 방식을 적용함으로써 대조형 학습과 생성형 학습을 모두 수용할 수 있다. 우리는 이러한 다양한 목적 함수를 동시에 학습하는 것이 간단하고 효과적이며, 작업 간 가중치 공유를 극대화함으로써 모델의 효율성을 높임을 입증한다. 더불어, 동일한 아키텍처는 오픈-보이지션 객체 탐지 및 비디오-언어 작업으로의 간단한 확장이 가능하다. 이 모델은 다양한 작업을 처리할 수 있는 동시에, 모델의 용량은 비교적 작다. 이미지-텍스트 및 텍스트-이미지 검색, 비디오 질의 응답, 오픈-보이지션 탐지 작업에서 최신 기준(SOTA) 성능을 달성하며, 훨씬 더 크고 광범위하게 학습된 기초 모델들보다도 우수한 성능을 보인다. VQA 및 비디오 캡셔닝에서도 특히 모델의 크기를 고려할 때 매우 경쟁력 있는 성과를 기록한다. 실험적 분석(ablation) 결과는 본 접근법의 유연성과 장점을 확인해 준다.