Command Palette

Search for a command to run...

2일 전

에무3.5: 내장형 다중모달 모델은 세계를 학습하는 모델이다

에무3.5: 내장형 다중모달 모델은 세계를 학습하는 모델이다

초록

우리는 시각과 언어 간 다음 상태를 자연스럽게 예측할 수 있는 대규모 다중모달 세계 모델인 Emu3.5를 소개한다. Emu3.5는 인터넷 동영상의 연속 프레임과 대사 텍스트를 주로 포함한, 10조 토큰 이상을 보유한 시각-언어 혼합 데이터 코퍼스를 기반으로, 통합된 다음 토큰 예측 목표함수를 통해 엔드투엔드로 사전 훈련되었다. 이 모델은 자연스럽게 혼합된 시각-언어 입력을 수용하며, 혼합된 시각-언어 출력을 생성할 수 있다. 또한, 다중모달 추론 및 생성 능력을 강화하기 위해 대규모 강화학습을 통한 사후 훈련을 추가로 수행하였다. 추론 효율성을 향상시키기 위해, 토큰 단위 디코딩을 양방향 병렬 예측으로 전환하는 '이산 확산 적응(Discrete Diffusion Adaptation, DiDA)'을 제안한다. 이 기법은 성능 훼손 없이 이미지당 추론 속도를 약 20배 가속화한다. Emu3.5는 장기적 시각-언어 생성, 임의의 입력에서 이미지 생성(X2I, any-to-image) 및 풍부한 텍스트를 포함한 복잡한 이미지 생성 등 강력한 내재적 다중모달 능력을 보여준다. 또한, 다양한 시나리오와 작업에서 시공간적으로 일관된 세계 탐색과 개방형 환경에서의 몸체 기반 조작을 가능하게 하는 일반화된 세계 모델링 능력을 갖추고 있다. 비교 실험 결과, Emu3.5는 이미지 생성 및 편집 작업에서 Gemini 2.5 Flash Image (Nano Banana)와 유사한 성능을 달성하였으며, 혼합 생성 작업 벤치마크에서는 더 우수한 결과를 보였다. Emu3.5는 https://github.com/baaivision/Emu3.5에서 오픈소스로 공개되어 연구 커뮤니티의 발전을 지원한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
에무3.5: 내장형 다중모달 모델은 세계를 학습하는 모델이다 | 연구 논문 | HyperAI초신경