Command Palette
Search for a command to run...
만자노: 하이브리드 비전 토큰라이저를 갖춘 간단하고 확장 가능한 통합 다중모달 모델
만자노: 하이브리드 비전 토큰라이저를 갖춘 간단하고 확장 가능한 통합 다중모달 모델
초록
시각 콘텐츠의 이해와 생성을 동시에 수행할 수 있는 통합 다중모달 대규모 언어 모델(LLM)은 막대한 잠재력을 지닌다. 그러나 기존 오픈소스 모델들은 이러한 두 가지 능력 사이에 성능 상의 트레이드오프를 겪는 경향이 있다. 우리는 하이브리드 이미지 토크나이저와 철저하게 구성된 훈련 전략을 결합함으로써 이 갈등을 크게 완화하는 단순하고 확장 가능한 통합 프레임워크인 Manzano를 제안한다. 하나의 공통된 시각 인코더가 두 개의 경량 어댑터에 공급되며, 이는 공통적인 의미 공간 내에서 이미지-텍스트 이해를 위한 연속형 임베딩과 텍스트-이미지 생성을 위한 이산형 토큰을 생성한다. 통합된 자기회귀형 LLM은 텍스트와 이미지 토큰 형태로 고수준 의미를 예측하고, 보조적인 확산 디코더가 이미지 토큰을 픽셀로 변환한다. 이 아키텍처와 이해 및 생성 데이터에 대한 통합 훈련 전략을 결합함으로써, 두 능력의 확장 가능한 공동 학습이 가능해진다. Manzano는 통합 모델 중에서 최고 수준의 성능을 달성하며, 특히 텍스트 중심 평가에서 전문가 모델과 경쟁력을 갖추고 있다. 우리의 연구 결과는 작업 간 충돌이 최소화되었으며, 모델 크기를 확장할수록 일관된 성능 향상이 이루어짐을 보여주며, 하이브리드 토크나이저를 채택한 설계 선택의 타당성을 입증한다.