Qwen2-VL: 임의 해상도에서 시각-언어 모델의 세계 인식 향상

우리는 이전 Qwen-VL 모델의 고급 업그레이드 버전인 Qwen2-VL 시리즈를 소개합니다. 이 모델은 시각 처리에서 기존의 사전 결정된 해상도 접근 방식을 재정의합니다. Qwen2-VL은 단순 동적 해상도(Naive Dynamic Resolution) 메커니즘을 도입하여, 다양한 해상도의 이미지를 서로 다른 수의 시각 토큰으로 동적으로 처리할 수 있게 합니다. 이러한 접근 방식은 모델이 더 효율적이고 정확한 시각 표현을 생성하도록 하며, 인간의 지각 과정과 밀접하게 일치합니다. 또한, 모델은 다중모달 회전 위치 임베딩(Multimodal Rotary Position Embedding, M-RoPE)을 통합하여, 텍스트, 이미지, 비디오 간의 위치 정보를 효과적으로 융합할 수 있도록 합니다. 우리는 이미지와 비디오 처리에 대한 통합 패러다임을 사용하여, 모델의 시각 인식 능력을 강화하였습니다. 대형 다중모달 모델의 잠재력을 탐구하기 위해, Qwen2-VL은 대형 시각-언어 모델(LVLMs)에 대한 스케일링 법칙을 연구합니다. 모델 크기(2B, 8B, 72B 파라미터 버전)와 학습 데이터 양을 확대함으로써, Qwen2-VL 시리즈는 매우 경쟁력 있는 성능을 달성하였습니다. 특히, Qwen2-VL-72B 모델은 다양한 다중모달 벤치마크에서 GPT-4o와 Claude3.5-Sonnet 같은 선두 모델들과 유사한 결과를 보여주며, 다른 일반적인 모델들을 능가하고 있습니다. 코드는 https://github.com/QwenLM/Qwen2-VL에서 확인할 수 있습니다.