2달 전

데이터 중심적 관점에서의 효율적인 다중모달 학습

Muyang He; Yexin Liu; Boya Wu; Jianhao Yuan; Yueze Wang; Tiejun Huang; Bo Zhao
데이터 중심적 관점에서의 효율적인 다중모달 학습
초록

다중 모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)은 일반적인 시각적 이해 및 추론 작업에서 뛰어난 능력을 보여주었습니다. 그러나 훈련과 추론 과정에서 큰 계산 비용이 발생하여 연구 및 사용자 커뮤니티의 접근성을 제한하고 있습니다. 이 문제를 해결하기 위한 간단한 방법은 더 작은 사전 훈련된 시각 및 언어 모델을 활용하는 것이지만, 이는 성능 저하를 불가피하게 초래합니다. 본 논문에서는 고품질 훈련 데이터를 사용하여 작지만 더 우수한 MLLM을 훈련시키는 가능성을 입증합니다. 구체적으로, 우리는 선택된 훈련 데이터로부터 효율적으로 다중 모드 학습을 수행할 수 있는 유연한 시각 및 언어 백본을 갖춘 경량 MLLM 가족인 Bunny를 소개합니다. 실험 결과, 우리의 Bunny-4B/8B는 여러 벤치마크에서 최신 대형 MLLM보다 우수한 성능을 보였습니다. 우리는 이 작업이 커뮤니티에 더욱 깊이 있는 연구와 개발을 위한 깔끔하고 유연한 오픈 소스 도구를 제공할 수 있을 것으로 기대합니다. 코드, 모델, 그리고 데이터는 https://github.com/BAAI-DCAI/Bunny에서 확인할 수 있습니다.

데이터 중심적 관점에서의 효율적인 다중모달 학습 | 최신 연구 논문 | HyperAI초신경