2달 전
蜂蜜벌레: 다중 모달 LLM을 위한 지역성 강화 프로젝터
Junbum Cha; Wooyoung Kang; Jonghwan Mun; Byungseok Roh

초록
다중 모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)에서 시각 프로젝터는 사전 학습된 시각 인코더와 LLMs를 연결하는 중요한 역할을 하며, 깊은 시각 이해를 가능하게 하면서 LLMs의 강력한 기능을 활용합니다. 시각 프로젝터의 중요성에도 불구하고, 이에 대한 연구는 상대적으로 덜 이루어져 왔습니다. 본 연구에서는 먼저 두 가지 필수적인 프로젝터 특성을 식별하였습니다: (i) 시각 토큰의 수를 관리하는 유연성으로, MLLMs의 전반적인 효율성에 결정적이고, (ii) 시각 특징에서 지역 문맥을 보존하는 능력으로, 공간 이해에 매우 중요합니다. 이러한 결과를 바탕으로 우리는 유연성과 지역성이 강화된 새로운 프로젝터 설계를 제안하며, 두 가지 원하는 특성을 효과적으로 만족시킵니다. 또한, 다중 및 다면적인 지시 데이터셋을 효과적으로 활용하기 위한 포괄적인 전략을 제시합니다. 광범위한 실험을 통해 개별 설계 선택사항의 영향을 검토하였습니다. 마지막으로, 제안된 MLLM인 Honeybee는 MME, MMBench, SEED-Bench, LLaVA-Bench 등 다양한 벤치마크에서 이전 최신 방법들을 크게 능가하며, 현저히 높은 효율성을 달성하였습니다. 코드와 모델은 https://github.com/kakaobrain/honeybee에서 이용 가능합니다.