Command Palette

Search for a command to run...

3달 전

Emu3: 다음 토큰 예측은 전부입니다

Emu3: 다음 토큰 예측은 전부입니다

초록

다음 토큰 예측(next-token prediction)은 인공 일반 지능(Artificial General Intelligence)을 향한 유망한 길로 여겨지지만, 다중모달 작업에서는 여전히 확산 모델(예: Stable Diffusion)과 조합형 접근 방식(예: CLIP과 LLM의 결합)이 지배하고 있다. 본 논문에서는 단일 토큰 예측만을 활용해 훈련된 최첨단 다중모달 모델인 Emu3을 소개한다. 이미지, 텍스트, 영상을 이산 공간으로 토큰화함으로써, 다중모달 시퀀스의 혼합 데이터 위에서 하나의 트랜스포머를 처음부터 훈련시켰다. Emu3은 생성 및 인지 작업 모두에서 기존의 잘 정립된 작업별 전용 모델들을 능가하며, SDXL 및 LLaVA-1.6와 같은 주요 모델들을 제치고, 확산 모델이나 조합형 아키텍처를 필요로 하지 않는다. 또한 Emu3는 영상 시퀀스에서 다음 토큰을 예측함으로써 고해상도 영상을 생성할 수 있다. 복잡한 다중모달 모델 설계를 단순화하기 위해, 우리는 오직 ‘토큰’에 집중하는 방향으로 모델을 통합함으로써, 훈련 및 추론 시 모두 확장 가능성을 크게 열어냈다. 우리의 결과는 다음 토큰 예측이 언어를 넘어서 일반적인 다중모달 지능을 구축하는 데 있어 매우 유망한 길임을 보여준다. 본 연구에서는 이 분야의 추가 연구를 지원하기 위해 핵심 기술과 모델을 오픈소스로 공개한다.

코드 저장소

flagopen/flagscale
pytorch
GitHub에서 언급됨
baaivision/emu3
pytorch
GitHub에서 언급됨

벤치마크

벤치마크방법론지표
visual-question-answering-on-mm-vetEmu3
GPT-4 score: 37.2

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
Emu3: 다음 토큰 예측은 전부입니다 | 연구 논문 | HyperAI초신경