HyperAI초신경
10일 전

Mono-InternVL-1.5: 더 저렴하고 빠른 단일체 다중모달 대형 언어 모델로의 발전

Gen Luo; Wenhan Dou; Wenhao Li; Zhaokai Wang; Xue Yang; Changyao Tian; Hao Li; Weiyun Wang; Wenhai Wang; Xizhou Zhu; Yu Qiao; Jifeng Dai
Mono-InternVL-1.5: 더 저렴하고 빠른 단일체 다중모달 대형 언어 모델로의 발전
초록

본 논문은 시각 인코딩과 언어 디코딩을 단일 모델로 통합하는 모노리식 다중모달 대형 언어 모델(Monomolithic Multimodal Large Language Models, MLLMs)에 초점을 맞추고 있습니다. 기존의 모노리식 MLLM 구조와 사전 학습 전략은 종종 불안정한 최적화와 재앙적인 잊힘(catastrophic forgetting) 문제를 겪습니다. 이러한 도전 과제를 해결하기 위해, 우리의 주요 아이디어는 사전 학습된 LLM에 새로운 시각 매개변수 공간을 내장하여 노이즈 데이터에서 안정적으로 시각 지식을 학습할 수 있도록 델타 튜닝(delta tuning)을 사용하는 것입니다.이 원칙에 기반하여, 먼저 고급 모노리식 MLLM인 Mono-InternVL을 소개합니다. 이 모델은 다중모달 전문가 혼합(mixture-of-experts) 아키텍처를 통해 일련의 시각 전문가들을 통합합니다. 또한, Mono-InternVL의 시각 능력을 극대화하기 위해 점진적 학습을 통해 최대한 활용할 수 있는 혁신적인 내부 시각 사전 학습(Endogenous Visual Pre-training, EViP) 방법을 설계하였습니다. Mono-InternVL은 기존 MLLM들과 경쟁력 있는 성능을 보여주지만, 상대적으로 높은 데이터 비용이 발생합니다.따라서, 우리는 더 저렴하고 강력한 모노리식 MLLM인 Mono-InternVL-1.5를 제시합니다. 이 모델은 개선된 EViP(EViP++)를 탑재하고 있으며, EViP++는Mono-InternVL-1.5에 추가적인 시각 주의 전문가(visual attention experts)를 도입하고 사전 학습 과정을 효율적으로 재구성합니다. 추론 과정에서는 MoE 연산을 가속화하기 위해 융합된 CUDA 커널(fused CUDA kernel)을 포함합니다. 이러한 설계 덕분에 Mono-InternVL-1.5는 훈련 및 추론 비용을 크게 줄이면서도 여전히 Mono-InternVL과 경쟁력 있는 성능을 유지합니다.우리의 접근 방식을 평가하기 위해 15개 벤치마크에서 광범위한 실험을 수행했습니다. 결과는 Mono-InternVL이 15개 벤치마크 중 12개에서 기존의 모노리식 MLLM들을 능가한다는 것을 입증하였습니다(예: OCRBench에서 Emu3보다 +114점 향상). 그 모듈형 대응물인 InternVL-1.5와 비교하면, Mono-InternVL-1.5는 유사한 다중모달 성능을 달성하면서 첫 번째 토큰 지연(first-token latency) 시간을 최대 69%까지 줄였습니다.코드와 모델은 https://github.com/OpenGVLab/Mono-InternVL에서 공개되었습니다.