2달 전

Infinity-MM: 대규모 및 고품질 지시 데이터를 활용한 다중 모달 성능 확장

Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu
Infinity-MM: 대규모 및 고품질 지시 데이터를 활용한 다중 모달 성능 확장
초록

비전-언어 모델(Vision-Language Models, VLMs)은 최근에 상당한 발전을 이룩하였지만, 오픈 소스 지시 데이터의 제한된 규모와 품질로 인해 폐쇄 소스 모델에 비해 성능이 떨어집니다. 본 연구에서는 이러한 한계를 극복하기 위해 4,000만 개 샘플을 포함하는 대규모 다중모달 지시 데이터셋인 Infinity-MM을 소개합니다. 이 데이터셋은 엄격한 품질 필터링과 중복 제거를 통해 강화되었습니다. 또한, 상세한 이미지 주석과 다양한 질문 생성을 사용하여 오픈 소스 VLMs를 기반으로 하는 합성 지시 생성 방법을 제안합니다. 이 데이터를 활용하여 20억 개 파라미터를 가진 VLM인 Aquila-VL-2B를 훈련시켰으며, 유사한 규모의 모델들 중 최고 수준(state-of-the-art, SOTA)의 성능을 달성하였습니다. 이는 지시 데이터의 확장과 합성 데이터 생성이 오픈 소스 모델의 성능을 크게 향상시키는 것을 보여줍니다.

Infinity-MM: 대규모 및 고품질 지시 데이터를 활용한 다중 모달 성능 확장 | 최신 연구 논문 | HyperAI초신경