에뮤: 다중 모드에서의 생성적 사전 학습

우리는 Emu를 소개합니다. Emu는 트랜스포머 기반의 다중 모드 기초 모델로, 다중 모드 환경에서 이미지와 텍스트를 원활하게 생성할 수 있습니다. 이 옴니vore(omnivore) 모델은 어떠한 단일 모드나 다중 모드 데이터 입력도 차별 없이 처리할 수 있으며, 모든 입력에 대해 하나의 모델을 사용하는 자기 회귀 학습 과정을 통해 작동합니다. 먼저, 시각적 신호는 임베딩으로 인코딩되며, 텍스트 토큰과 함께 교차 입력 시퀀스를 형성합니다. 그런 다음 Emu는 다중 모드 시퀀스에서 다음 텍스트 토큰을 분류하거나 다음 시각적 임베딩을 회귀하는 통합된 목적 함수로 엔드-투-엔드(end-to-end)로 학습됩니다. 이러한 다양한 다중 모디얼리티(multimodality)는 대규모로 비디오 프레임과 텍스트가 교차된 비디오, 이미지와 텍스트가 교차된 웹페이지, 웹 규모의 이미지-텍스트 쌍 및 비디오-텍스트 쌍 등 다양한 사전 학습 데이터 소스를 탐색할 수 있는 능력을 제공합니다. Emu는 이미지-텍스트 변환 및 텍스트-이미지 변환 작업 모두에 대한 일반적인 다중 모드 인터페이스 역할을 할 수 있으며, 컨텍스트 내에서 이미지와 텍스트 생성을 지원합니다. 제로샷/퍼-shot 작업을 포함하여 이미지 캡셔닝, 시각적 질문 응답, 비디오 질문 응답 및 텍스트-이미지 생성 등 광범위한 작업에서 Emu는 최신 대형 다중 모달 모델보다 뛰어난 성능을 보여줍니다. 명령 조정(instruction tuning)을 통해 구현된 다중 모달 어시스턴트(multimodal assistants) 등의 확장 기능도 인상적인 성능으로 입증되었습니다.