7일 전

MaMMUT: 다중모달 작업을 위한 공동 학습을 위한 간단한 아키텍처

Weicheng Kuo, AJ Piergiovanni, Dahun Kim, Xiyang Luo, Ben Caine, Wei Li, Abhijit Ogale, Luowei Zhou, Andrew Dai, Zhifeng Chen, Claire Cui, Anelia Angelova
MaMMUT: 다중모달 작업을 위한 공동 학습을 위한 간단한 아키텍처
초록

언어 모델의 개발은 인코더-디코더 구조에서 디코더 중심 구조로 이동해 왔다. 또한, 가장 인기 있는 두 가지 다중 모달 작업인 생성형 작업과 대조형 작업은 하나의 아키텍처에 효과적으로 통합하기 어렵고, 이후 작업에 대해서도 추가적인 적응이 필요하다는 점을 관찰할 수 있다. 본 연구에서는 다중 모달 작업을 위한 디코더 중심 모델을 활용한 새로운 학습 패러다임을 제안한다. 이는 놀랍도록 효과적인 방식으로 다양한 시각-언어 작업을 동시에 학습할 수 있게 한다. 이는 단순한 모델인 MaMMUT를 통해 구현되며, 단일 시각 인코더와 텍스트 디코더로 구성되어 있다. 텍스트 디코더에 새로운 이중 통과 방식을 적용함으로써 대조형 학습과 생성형 학습을 모두 수용할 수 있다. 우리는 이러한 다양한 목적 함수를 동시에 학습하는 것이 간단하고 효과적이며, 작업 간 가중치 공유를 극대화함으로써 모델의 효율성을 높임을 입증한다. 더불어, 동일한 아키텍처는 오픈-보이지션 객체 탐지 및 비디오-언어 작업으로의 간단한 확장이 가능하다. 이 모델은 다양한 작업을 처리할 수 있는 동시에, 모델의 용량은 비교적 작다. 이미지-텍스트 및 텍스트-이미지 검색, 비디오 질의 응답, 오픈-보이지션 탐지 작업에서 최신 기준(SOTA) 성능을 달성하며, 훨씬 더 크고 광범위하게 학습된 기초 모델들보다도 우수한 성능을 보인다. VQA 및 비디오 캡셔닝에서도 특히 모델의 크기를 고려할 때 매우 경쟁력 있는 성과를 기록한다. 실험적 분석(ablation) 결과는 본 접근법의 유연성과 장점을 확인해 준다.