2달 전
미니-제미니: 다중 모드 시각 언어 모델의 잠재력 발굴
Li, Yanwei ; Zhang, Yuechen ; Wang, Chengyao ; Zhong, Zhisheng ; Chen, Yixin ; Chu, Ruihang ; Liu, Shaoteng ; Jia, Jiaya

초록
이 연구에서는 Multi-Modality Vision Language Models (VLMs)을 강화하는 간단하면서도 효과적인 프레임워크인 Mini-Gemini를 소개합니다. VLMs의 발전으로 기본적인 시각 대화와 추론이 가능해졌지만, GPT-4와 Gemini 같은 고급 모델과 비교하여 성능 차이가 여전히 존재합니다. 우리는 이 성능 차이를 좁히기 위해 세 가지 측면에서 VLMs의 잠재력을 활용하려고 합니다: 고해상도 시각 토큰, 고품질 데이터, 그리고 VLM 지도 생성입니다.시각 토큰을 개선하기 위해, 우리는 고해상도 정교화를 수행하면서 시각 토큰 수를 증가시키지 않는 추가적인 시각 인코더의 사용을 제안합니다. 또한, 정확한 이미지 이해와 추론 기반 생성을 촉진하는 고품질 데이터셋을 구축하여 현재 VLMs의 운영 범위를 확장하였습니다. 일반적으로, Mini-Gemini는 VLMs의 잠재력을 더욱 탐구하고 이미지 이해, 추론, 및 생성을 동시에 수행할 수 있는 현재 프레임워크에 힘을 실어줍니다.Mini-Gemini는 2B부터 34B까지의 다양한 Dense와 MoE Large Language Models (LLMs)를 지원하며, 여러 zero-shot 벤치마크에서 선두 성능을 달성하였으며 심지어 개발된 사설 모델들을 능가하는 것으로 입증되었습니다. 코드와 모델은 https://github.com/dvlab-research/MiniGemini에서 제공됩니다.