2달 전

SPHINX: 다중 모드 대형 언어 모델을 위한 가중치, 작업, 및 시각적 임베딩의 통합 혼합

Lin, Ziyi ; Liu, Chris ; Zhang, Renrui ; Gao, Peng ; Qiu, Longtian ; Xiao, Han ; Qiu, Han ; Lin, Chen ; Shao, Wenqi ; Chen, Keqin ; Han, Jiaming ; Huang, Siyuan ; Zhang, Yichi ; He, Xuming ; Li, Hongsheng ; Qiao, Yu
SPHINX: 다중 모드 대형 언어 모델을 위한 가중치, 작업, 및 시각적 임베딩의 통합 혼합
초록

우리는 SPHINX를 소개합니다. 이는 모델 가중치, 튜닝 작업, 그리고 시각적 임베딩을 통합한 다목적 다모달 대형 언어 모델(Multi-Modal Large Language Model, MLLM)입니다. 첫째, 더 강력한 시각-언어 일치성을 위해 사전 학습 과정에서 대형 언어 모델(Large Language Model, LLM)을 해동시키고, 실제 데이터와 합성 데이터로 학습된 LLM 간의 가중치 혼합 전략을 도입하였습니다. 두 가지 영역의 가중치를 직접 통합함으로써 혼합된 LLM은 다양한 의미를 효과적으로 통합할 수 있으며, 우수한 견고성을 유지할 수 있습니다. 둘째, 다목적 기능을 가능하게 하기 위해 다양한 작업을 혼합하여 공동 시각 지시 튜닝을 수행하고, 작업 간 충돌을 피하기 위해 작업별 지시문을 설계하였습니다. 기본적인 시각 질문 응답 외에도 지역 수준 이해, 캡션 정렬(Caption Grounding), 문서 레이아웃 감지, 인간 자세 추정 등 더 어려운 작업들을 포함하여 다양한 상황에서 상호 보완적인 향상을 이루었습니다.또한, 다양한 네트워크 아키텍처, 사전 학습 패러다임 및 정보 세분화(Information Granularity)로부터 포괄적인 시각 임베딩을 추출하는 방법을 제안하였습니다. 이를 통해 언어 모델은 더욱 견고한 이미지 표현을 제공받습니다. 우리가 제안한 공동 혼합 기반으로 SPHINX는 광범위한 응용 분야에서 우수한 다모달 이해 능력을 보여줍니다. 또한 고해상도 이미지의 미세 특징(Fine-Grained Appearances)을 더 잘 포착하기 위한 효율적인 전략도 제안하였습니다. 서로 다른 크기와 고해상도 부분 이미지를 혼합함으로써 SPHINX는 기존 평가 벤치마크에서 뛰어난 시각 해석 및 추론 성능을 달성하였습니다. 우리는 이번 연구가 미래 MLLM 연구에서의 공동 혼합 탐구에 새로운 방향성을 제시하길 바랍니다. 코드는 https://github.com/Alpha-VLLM/LLaMA2-Accessory 에서 제공됩니다.

SPHINX: 다중 모드 대형 언어 모델을 위한 가중치, 작업, 및 시각적 임베딩의 통합 혼합 | 최신 연구 논문 | HyperAI초신경