Qwen2.5-VL 기술 보고서

우리는 Qwen 시각-언어 시리즈의 최신 플래그십 모델인 Qwen2.5-VL을 소개합니다. 이 모델은 기초적 능력과 혁신적인 기능 면에서 두드러진 발전을 보여줍니다. Qwen2.5-VL은 향상된 시각 인식, 정밀한 객체 위치 지정, 강력한 문서 해석 능력, 그리고 장시간 영상 이해 능력을 통해 세계를 이해하고 상호작용하는 데 있어 획기적인 진보를 이루었습니다. Qwen2.5-VL의 두드러진 특징 중 하나는 경계 상자 또는 점을 활용해 객체를 정확히 위치 지정할 수 있다는 점입니다. 또한 송장, 양식, 표 등에서 구조화된 데이터를 강력하게 추출하고, 차트, 다이어그램, 레이아웃에 대한 세부 분석도 가능합니다. 복잡한 입력을 처리하기 위해 Qwen2.5-VL은 동적 해상도 처리 및 절대 시간 인코딩을 도입하여, 다양한 크기의 이미지와 수 시간에 이르는 긴 영상(초 단위 이벤트 위치 지정 가능)을 효과적으로 처리할 수 있습니다. 이를 통해 기존의 전통적인 정규화 기법에 의존하지 않고도 모델이 본질적으로 공간적 척도와 시간적 동역학을 인지할 수 있습니다. 본 모델은 처음부터 새로 학습한 동적 해상도 기반의 비전 트랜스포머(Vision Transformer, ViT)와 윈도우 어텐션(Window Attention)을 결합함으로써, 원본 해상도를 유지하면서도 계산 부담을 줄였습니다. 그 결과 Qwen2.5-VL은 정적 이미지 및 문서 이해 능력뿐 아니라, 실제 환경에서 컴퓨터나 모바일 기기를 조작하는 등 추론, 도구 사용, 작업 수행이 가능한 상호작용형 시각 에이전트로서도 뛰어난 성능을 발휘합니다. Qwen2.5-VL은 엣지 AI부터 고성능 컴퓨팅에 이르기까지 다양한 활용 사례를 충족시키기 위해 세 가지 크기로 제공됩니다. 플래그십 모델인 Qwen2.5-VL-72B는 GPT-4o 및 Claude 3.5 Sonnet과 같은 최첨단 모델과 경쟁할 수 있으며, 특히 문서 및 다이어그램 이해 능력에서 뛰어난 성능을 보입니다. 또한 Qwen2.5-VL은 언어 능력 면에서도 뛰어난 견고성을 유지하며, Qwen2.5 LLM의 핵심 언어 능력을 그대로 보존하고 있습니다.