17일 전

Qwen2.5-VL 기술 보고서

Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin

논문 세부 정보 보기

초록

우리는 Qwen 시각-언어 시리즈의 최신 플래그십 모델인 Qwen2.5-VL을 소개합니다. 이 모델은 기초적 능력과 혁신적인 기능 면에서 두드러진 발전을 보여줍니다. Qwen2.5-VL은 향상된 시각 인식, 정밀한 객체 위치 지정, 강력한 문서 해석 능력, 그리고 장시간 영상 이해 능력을 통해 세계를 이해하고 상호작용하는 데 있어 획기적인 진보를 이루었습니다. Qwen2.5-VL의 두드러진 특징 중 하나는 경계 상자 또는 점을 활용해 객체를 정확히 위치 지정할 수 있다는 점입니다. 또한 송장, 양식, 표 등에서 구조화된 데이터를 강력하게 추출하고, 차트, 다이어그램, 레이아웃에 대한 세부 분석도 가능합니다. 복잡한 입력을 처리하기 위해 Qwen2.5-VL은 동적 해상도 처리 및 절대 시간 인코딩을 도입하여, 다양한 크기의 이미지와 수 시간에 이르는 긴 영상(초 단위 이벤트 위치 지정 가능)을 효과적으로 처리할 수 있습니다. 이를 통해 기존의 전통적인 정규화 기법에 의존하지 않고도 모델이 본질적으로 공간적 척도와 시간적 동역학을 인지할 수 있습니다. 본 모델은 처음부터 새로 학습한 동적 해상도 기반의 비전 트랜스포머(Vision Transformer, ViT)와 윈도우 어텐션(Window Attention)을 결합함으로써, 원본 해상도를 유지하면서도 계산 부담을 줄였습니다. 그 결과 Qwen2.5-VL은 정적 이미지 및 문서 이해 능력뿐 아니라, 실제 환경에서 컴퓨터나 모바일 기기를 조작하는 등 추론, 도구 사용, 작업 수행이 가능한 상호작용형 시각 에이전트로서도 뛰어난 성능을 발휘합니다. Qwen2.5-VL은 엣지 AI부터 고성능 컴퓨팅에 이르기까지 다양한 활용 사례를 충족시키기 위해 세 가지 크기로 제공됩니다. 플래그십 모델인 Qwen2.5-VL-72B는 GPT-4o 및 Claude 3.5 Sonnet과 같은 최첨단 모델과 경쟁할 수 있으며, 특히 문서 및 다이어그램 이해 능력에서 뛰어난 성능을 보입니다. 또한 Qwen2.5-VL은 언어 능력 면에서도 뛰어난 견고성을 유지하며, Qwen2.5 LLM의 핵심 언어 능력을 그대로 보존하고 있습니다.