Command Palette
Search for a command to run...
초록
우리는 텍스트가 풍부한 이미지 이해, 시각적 참조 및 위치 지정, 다중 이미지 추론 능력을 향상시키기 위해 설계된 새로운 다중모달 대규모 언어 모델(MLLM) 계열인 MM1.5을 제안한다. MM1 아키텍처를 기반으로 한 MM1.5는 데이터 중심의 학습 접근 방식을 채택하여, 모델 학습 전반에 걸쳐 다양한 데이터 혼합이 미치는 영향을 체계적으로 탐구한다. 이는 지속적인 사전 학습을 위한 고품질 OCR 데이터 및 합성 캡션, 그리고 감독된 미세조정을 위한 최적화된 시각적 지시 조정 데이터 혼합물을 포함한다. 우리 모델은 1B에서 30B 파라미터 규모를 가지며, 밀집형(Dense) 및 전문가 혼합(MoE) 변형 모두를 포함하며, 소규모(1B 및 3B)에서도 주의 깊은 데이터 정제와 학습 전략이 강력한 성능을 발휘할 수 있음을 보여준다. 또한, 두 가지 전문화된 변형인 MM1.5-Video(비디오 이해용)와 MM1.5-UI(모바일 UI 이해용)를 도입한다. 광범위한 실험적 연구 및 분석을 통해 학습 과정과 최종 설계 결정에 영향을 미친 요소들을 심층적으로 탐구하며, 향후 MLLM 개발 연구에 유용한 지침을 제공한다.
벤치마크
| 벤치마크 | 방법론 | 지표 |
|---|---|---|
| visual-question-answering-on-mm-vet | MM1.5-30B | GPT-4 score: 52.0 |
| visual-question-answering-on-mm-vet | MM1.5-3B | GPT-4 score: 41.0 |
| visual-question-answering-on-mm-vet | MM1.5-1B-MoE | GPT-4 score: 39.8 |
| visual-question-answering-on-mm-vet | MM1.5-7B | GPT-4 score: 42.2 |
| visual-question-answering-on-mm-vet | MM1.5-1B | GPT-4 score: 37.4 |
| visual-question-answering-on-mm-vet | MM1.5-3B-MoE | GPT-4 score: 43.7 |