17일 전

검색 증강 다중모달 언어 모델링

Michihiro Yasunaga, Armen Aghajanyan, Weijia Shi, Rich James, Jure Leskovec, Percy Liang, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih
검색 증강 다중모달 언어 모델링
초록

최근 다중모달 모델인 DALL-E 및 CM3는 텍스트에서 이미지 생성 및 이미지에서 텍스트 생성 측면에서 놀라운 성과를 달성하였다. 그러나 이러한 모델들은 학습된 지식(예: 에펠탑의 외관)을 모두 모델 파라미터에 저장하기 때문에, 더 많은 지식을 포착하기 위해 점점 더 큰 모델과 훈련 데이터가 필요하다. 보다 확장 가능하고 모듈화된 방식으로 지식을 통합하기 위해, 우리는 검색 기반 다중모달 모델을 제안한다. 이 모델은 기반 다중모달 모델(생성기)이 외부 메모리(예: 웹 문서)에서 검색기(retriever)를 통해 관련된 텍스트 및 이미지를 가져와 참조할 수 있도록 한다. 구체적으로, 검색기에는 사전 훈련된 CLIP을 사용하고, 생성기에는 LAION 데이터셋에서 CM3 Transformer를 훈련시킨다. 본 연구에서 제안한 모델인 검색 기반 CM3(RA-CM3)는 처음으로 텍스트와 이미지 모두를 검색하고 생성할 수 있는 다중모달 모델이다. 실험 결과, RA-CM3는 DALL-E 및 CM3와 같은 기준 모델에 비해 이미지 생성 및 캡션 생성 작업에서 뚜렷한 성능 향상을 보였다(MS-COCO에서 FID는 12점, CIDEr는 17점 개선). 또한 훈련에 필요한 계산 자원은 DALL-E의 30% 미만으로, 매우 효율적이다. 더불어 RA-CM3는 이미지 생성의 정확성 향상과 다중모달 컨텍스트 내 학습(multimodal in-context learning)과 같은 새로운 기능을 보여주었다(예: 예시 기반 이미지 생성).