9일 전

SPHINX-X: 다중 모달 대규모 언어 모델 가족을 위한 데이터 및 파라미터 확장

Dongyang Liu, Renrui Zhang, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao, Peng Gao
SPHINX-X: 다중 모달 대규모 언어 모델 가족을 위한 데이터 및 파라미터 확장
초록

우리는 SPHINX 기반으로 개발된 광범위한 다중모달 대규모 언어 모델(Multimodality Large Language Model, MLLM) 시리즈인 SPHINX-X를 제안한다. 아키텍처 및 학습 효율성을 향상시키기 위해, SPHINX 프레임워크를 개선하여 중복된 시각 인코더를 제거하고, 패딩이 완전히 이루어진 하위 이미지를 스킵 토큰을 통해 건너뛰며, 다단계 학습을 단일 단계의 통합형 파라다임으로 단순화하였다. MLLM의 잠재력을 극대화하기 위해, 언어, 비전, 비전-언어 작업 분야에서 공개된 자료를 포괄하는 종합적인 다영역·다모달 데이터셋을 구축하였다. 또한, 우리 팀이 철저히 선별한 OCR 중심 데이터셋과 Set-of-Mark 데이터셋을 추가하여 데이터의 다양성과 일반화 능력을 더욱 강화하였다. TinyLlama 1.1B, InternLM2-7B, LLaMA2-13B, Mixtral8x7B 등 다양한 기반 대규모 언어 모델(Large Language Model, LLM)을 기반으로 학습함으로써, 파라미터 크기와 다국어 처리 능력이 다양한 MLLM의 스펙트럼을 도출하였다. 종합적인 벤치마킹 결과는 다중모달 성능이 데이터 규모 및 파라미터 규모와 강한 상관관계를 보임을 시사한다. 코드 및 모델은 https://github.com/Alpha-VLLM/LLaMA2-Accessory 에서 공개된다.

SPHINX-X: 다중 모달 대규모 언어 모델 가족을 위한 데이터 및 파라미터 확장 | 최신 연구 논문 | HyperAI초신경