2달 전

Qwen2-VL: 임의 해상도에서 시각-언어 모델의 세계 인식 향상

Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin
Qwen2-VL: 임의 해상도에서 시각-언어 모델의 세계 인식 향상
초록

우리는 이전 Qwen-VL 모델의 고급 업그레이드 버전인 Qwen2-VL 시리즈를 소개합니다. 이 모델은 시각 처리에서 기존의 사전 결정된 해상도 접근 방식을 재정의합니다. Qwen2-VL은 단순 동적 해상도(Naive Dynamic Resolution) 메커니즘을 도입하여, 다양한 해상도의 이미지를 서로 다른 수의 시각 토큰으로 동적으로 처리할 수 있게 합니다. 이러한 접근 방식은 모델이 더 효율적이고 정확한 시각 표현을 생성하도록 하며, 인간의 지각 과정과 밀접하게 일치합니다. 또한, 모델은 다중모달 회전 위치 임베딩(Multimodal Rotary Position Embedding, M-RoPE)을 통합하여, 텍스트, 이미지, 비디오 간의 위치 정보를 효과적으로 융합할 수 있도록 합니다. 우리는 이미지와 비디오 처리에 대한 통합 패러다임을 사용하여, 모델의 시각 인식 능력을 강화하였습니다. 대형 다중모달 모델의 잠재력을 탐구하기 위해, Qwen2-VL은 대형 시각-언어 모델(LVLMs)에 대한 스케일링 법칙을 연구합니다. 모델 크기(2B, 8B, 72B 파라미터 버전)와 학습 데이터 양을 확대함으로써, Qwen2-VL 시리즈는 매우 경쟁력 있는 성능을 달성하였습니다. 특히, Qwen2-VL-72B 모델은 다양한 다중모달 벤치마크에서 GPT-4o와 Claude3.5-Sonnet 같은 선두 모델들과 유사한 결과를 보여주며, 다른 일반적인 모델들을 능가하고 있습니다. 코드는 https://github.com/QwenLM/Qwen2-VL에서 확인할 수 있습니다.

Qwen2-VL: 임의 해상도에서 시각-언어 모델의 세계 인식 향상 | 최신 연구 논문 | HyperAI초신경