HyperAIHyperAI

Command Palette

Search for a command to run...

EMMA: 통합 아키텍처를 활용한 효율적인 다중모달 이해, 생성 및 편집

Xin He Longhui Wei Jianbo Ouyang Lingxi Xie Qi Tian

초록

우리는 다중모달 이해, 생성 및 편집을 위한 효율적이고 통합적인 아키텍처인 EMMA를 제안한다. 구체적으로 EMMA는 다음과 같은 주요 구성 요소로 이루어져 있다. 1) 32배 압축 비율을 갖는 효율적인 오토인코더로, 생성에 필요한 토큰 수를 크게 감소시킨다. 또한 이미지에 동일한 압축 비율을 적용함으로써 이해 및 생성 작업 간의 학습 균형을 유지한다. 2) 시각적 이해 및 생성 토큰 간에 토큰 단위 연결 대신 채널 단위 연결을 사용함으로써, 통합 아키텍처 내 시각적 토큰 수를 추가로 감소시킨다. 3) 작업 간 상호 보완적 개선을 가능하게 하면서도 각 작업의 특수한 모델링 요구 사항을 충족시키는 공유-분리형 네트워크 구조를 도입한다. 4) 시각적 이해용 인코더에 전문가 집합(Mixture-of-Experts, MoE) 메커니즘을 도입하여, 소수의 파라미터 증가로도 인지 능력을 크게 향상시킨다. 광범위한 실험 결과에 따르면, EMMA-4B는 효율성과 성능 면에서 최신의 통합형 다중모달 접근법(예: BAGEL-7B)을 크게 능가하며, 최근의 전문적인 다중모달 이해 및 생성 모델(예: Qwen3-VL 및 Qwen-Image)과 비교해도 경쟁력 있는 성능을 달성하였다. 우리는 EMMA가 향후 통합형 다중모달 아키텍처의 발전을 위한 견고한 기반을 마련했다고 믿는다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
EMMA: 통합 아키텍처를 활용한 효율적인 다중모달 이해, 생성 및 편집 | 문서 | HyperAI초신경