Command Palette

Search for a command to run...

3달 전

MM1.5: 다중모달 LLM 피니팅의 방법, 분석 및 통찰

초록

우리는 텍스트가 풍부한 이미지 이해, 시각적 참조 및 위치 지정, 다중 이미지 추론 능력을 향상시키기 위해 설계된 새로운 다중모달 대규모 언어 모델(MLLM) 계열인 MM1.5을 제안한다. MM1 아키텍처를 기반으로 한 MM1.5는 데이터 중심의 학습 접근 방식을 채택하여, 모델 학습 전반에 걸쳐 다양한 데이터 혼합이 미치는 영향을 체계적으로 탐구한다. 이는 지속적인 사전 학습을 위한 고품질 OCR 데이터 및 합성 캡션, 그리고 감독된 미세조정을 위한 최적화된 시각적 지시 조정 데이터 혼합물을 포함한다. 우리 모델은 1B에서 30B 파라미터 규모를 가지며, 밀집형(Dense) 및 전문가 혼합(MoE) 변형 모두를 포함하며, 소규모(1B 및 3B)에서도 주의 깊은 데이터 정제와 학습 전략이 강력한 성능을 발휘할 수 있음을 보여준다. 또한, 두 가지 전문화된 변형인 MM1.5-Video(비디오 이해용)와 MM1.5-UI(모바일 UI 이해용)를 도입한다. 광범위한 실험적 연구 및 분석을 통해 학습 과정과 최종 설계 결정에 영향을 미친 요소들을 심층적으로 탐구하며, 향후 MLLM 개발 연구에 유용한 지침을 제공한다.

벤치마크

벤치마크방법론지표
visual-question-answering-on-mm-vetMM1.5-30B
GPT-4 score: 52.0
visual-question-answering-on-mm-vetMM1.5-3B
GPT-4 score: 41.0
visual-question-answering-on-mm-vetMM1.5-1B-MoE
GPT-4 score: 39.8
visual-question-answering-on-mm-vetMM1.5-7B
GPT-4 score: 42.2
visual-question-answering-on-mm-vetMM1.5-1B
GPT-4 score: 37.4
visual-question-answering-on-mm-vetMM1.5-3B-MoE
GPT-4 score: 43.7

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
MM1.5: 다중모달 LLM 피니팅의 방법, 분석 및 통찰 | 연구 논문 | HyperAI초신경