17일 전
자기회귀적 다중모달 모델의 확장: 사전학습 및 지시 조정
Lili Yu, Bowen Shi, Ramakanth Pasunuru, Benjamin Muller, Olga Golovneva, Tianlu Wang, Arun Babu, Binh Tang, Brian Karrer, Shelly Sheynin, Candace Ross, Adam Polyak, Russell Howes, Vasu Sharma, Puxin Xu, Hovhannes Tamoyan, Oron Ashual, Uriel Singer, Shang-Wen Li, Susan Zhang, Richard James, Gargi Ghosh, Yaniv Taigman, Maryam Fazel-Zarandi, Asli Celikyilmaz, Luke Zettlemoyer, Armen Aghajanyan

초록
우리는 텍스트와 이미지 모두를 생성하고 채우는(인페일링) 것이 가능한, 검색 증강형(token-based), 디코더 중심의 다중모달 언어 모델인 CM3Leon(발음: '카멜레온')을 제안한다. CM3Leon은 CM3 다중모달 아키텍처를 기반으로 하되, 더 다양한 지시형 데이터(instruction-style data)에 대해 확장하고 최적화함으로써 극도로 뛰어난 성능을 보여준다. 이 모델은 텍스트 전용 언어 모델의 훈련 레시피를 다중모달 환경에 적응시킨 최초의 다중모달 모델로, 대규모 검색 증강형 사전 훈련 단계와 두 번째 다중 작업 지도형 미세조정(SFT) 단계를 포함한다. 또한 텍스트에서 이미지 생성(text-to-image)과 이미지에서 텍스트 생성(image-to-text)을 모두 수행할 수 있는 일반 목적 모델로서, 고품질 출력을 생성할 수 있는 자체 포함형 대조적 디코딩 방법을 도입할 수 있다. 광범위한 실험을 통해 이 훈련 레시피가 다중모달 모델에 매우 효과적임을 입증하였다. CM3Leon은 비교 가능한 기법들에 비해 훈련 계산 자원을 5배 적게 사용하면서도 텍스트에서 이미지 생성(task)에서 최첨단 성능을 달성하였으며, 제로샷 MS-COCO FID 점수는 4.88을 기록하였다. SFT 이후 CM3Leon은 언어 지도 이미지 편집부터 이미지 제어 생성 및 세그멘테이션에 이르기까지 다양한 작업에서 전례 없는 수준의 조작 가능성을 보여주었다.