2달 전

생성 다중모드 모델은 문맥 학습자입니다.

Quan Sun; Yufeng Cui; Xiaosong Zhang; Fan Zhang; Qiying Yu; Zhengxiong Luo; Yueze Wang; Yongming Rao; Jingjing Liu; Tiejun Huang; Xinlong Wang
생성 다중모드 모델은 문맥 학습자입니다.
초록

인간이 문맥 내에서 다중모드 작업을 쉽게 해결할 수 있는 능력(즉, 몇 번의 시연이나 간단한 지시만으로도)은 현재의 다중모드 시스템들이 주로 모방하기 어려워 하는 부분이다. 본 연구에서는 대규모 다중모드 모델의 문맥 내 학습 능력을 효과적으로 확장함으로써 이를 크게 향상시킬 수 있음을 보여준다. 우리는 370억 개의 매개변수를 가진 생성적 다중모드 모델인 Emu2를 소개한다. 이 모델은 통합 자기회귀 목표를 사용하여 대규모 다중모드 시퀀스로 훈련되었다. Emu2는 강력한 다중모드 문맥 내 학습 능력을 보여주며, 특히 즉석 추론이 필요한 작업(예: 시각적 프롬프팅 및 객체 기반 생성)을 해결하는 능력까지 나타낸다. 이 모델은 소수 샷(few-shot) 환경에서 여러 다중모드 이해 작업에서 새로운 기록을 세웠다. 특정 지시에 맞게 조정된 경우, Emu2는 대형 다중모드 모델용 질문 응답 벤치마크와 개방형 주제 기반 생성 등의 어려운 작업에서도 새로운 최고 성능(state-of-the-art)을 달성하였다. 이러한 성과들은 Emu2가 다양한 다중모드 작업에 대한 기본 모델 및 일반적인 인터페이스 역할을 할 수 있음을 입증한다. 코드와 모델은 공개되어 있어 향후 연구를 지원한다.

생성 다중모드 모델은 문맥 학습자입니다. | 최신 연구 논문 | HyperAI초신경