vor 17 Tagen

Qwen2.5-VL Technischer Bericht

Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin

Details der Forschungsarbeit anzeigen

Abstract

Wir stellen Qwen2.5-VL vor, das neueste Flaggschiff der Qwen-Serie für visuell-sprachliche Modelle, das erhebliche Fortschritte sowohl in grundlegenden Fähigkeiten als auch in innovativen Funktionen zeigt. Qwen2.5-VL erreicht einen entscheidenden Sprung vorwärts bei der Wahrnehmung und Interaktion mit der Welt durch verbesserte visuelle Erkennung, präzise Objektlokalisierung, robuste Dokumentenanalyse sowie die Verarbeitung von Langvideos. Ein herausragendes Merkmal von Qwen2.5-VL ist seine Fähigkeit, Objekte mit Hilfe von Achsenparallelen Rechtecken (Bounding Boxes) oder einzelnen Punkten genau zu lokalisieren. Das Modell ermöglicht eine zuverlässige Extraktion strukturierter Daten aus Rechnungen, Formularen und Tabellen sowie eine detaillierte Analyse von Diagrammen, Schaltplänen und Layouts. Um komplexe Eingaben effizient zu verarbeiten, führt Qwen2.5-VL eine dynamische Auflösungsverarbeitung und absolute Zeitkodierung ein, wodurch es Bilder unterschiedlicher Größe und Videos mit erheblicher Dauer (bis zu mehreren Stunden) mit sekundengenauer Ereignislokalisierung verarbeiten kann. Dadurch kann das Modell räumliche Skalen und zeitliche Dynamiken nativ wahrnehmen, ohne auf herkömmliche Normalisierungstechniken angewiesen zu sein. Durch die Neuentwicklung eines native dynamischen Auflösungs-Vision Transformer (ViT) von Grund auf und die Integration von Window Attention wird der Rechenaufwand reduziert, während die native Auflösung beibehalten wird. Folglich übertrifft Qwen2.5-VL nicht nur bei der Analyse statischer Bilder und Dokumente, sondern fungiert auch als interaktiver visueller Agent, der in realen Anwendungsszenarien – etwa bei der Bedienung von Computern oder mobilen Geräten – reasoning, Werkzeugnutzung und Aufgabenausführung durchführen kann. Qwen2.5-VL ist in drei Größen verfügbar und deckt ein breites Spektrum an Anwendungsfällen ab – von Edge-AI bis hin zu Hochleistungsrechnen. Das Spitzenmodell Qwen2.5-VL-72B erreicht Leistungen auf dem Niveau führender Modelle wie GPT-4o und Claude 3.5 Sonnet, insbesondere hervorragend bei der Verarbeitung von Dokumenten und Diagrammen. Zudem behält Qwen2.5-VL eine robuste sprachliche Leistung bei und bewahrt die zentralen Sprachkompetenzen des Qwen2.5-LLM.