vor 2 Monaten

Qwen-VL: Ein vielseitiges visuellsprachliches Modell für Verständnis, Lokalisierung, Texterkennung und mehr

Bai, Jinze ; Bai, Shuai ; Yang, Shusheng ; Wang, Shijie ; Tan, Sinan ; Wang, Peng ; Lin, Junyang ; Zhou, Chang ; Zhou, Jingren

Details der Forschungsarbeit anzeigen

Qwen-VL: Ein vielseitiges visuellsprachliches Modell für Verständnis,
Lokalisierung, Texterkennung und mehr

Abstract

In dieser Arbeit stellen wir die Qwen-VL-Reihe vor, eine Reihe großskaliger visueller Sprachmodelle (VSMs), die entwickelt wurden, um sowohl Texte als auch Bilder wahrzunehmen und zu verstehen. Ausgehend vom Qwen-LM als Grundlage, versehen wir es mit visuellen Fähigkeiten durch sorgfältig gestaltete (i) visuelle Rezeptoren, (ii) Eingabe-Ausgabe-Schnittstellen, (iii) dreistufige Trainingspipeline und (iv) mehrsprachige multimodale gereinigte Korpora. Neben den konventionellen Aufgaben der Bildbeschreibung und Fragebeantwortung implementieren wir die Fähigkeiten des Ankerpunkts und des Textlesens von Qwen-VLs durch das Ausrichten von Bild-Beschriftung-Box-Tupeln. Die resultierenden Modelle, einschließlich Qwen-VL und Qwen-VL-Chat, setzen neue Rekordwerte für Generalist-Modelle ähnlicher Größenordnung in einer breiten Palette von bildzentrierten Benchmarks (z.B. Bildbeschriftung, Fragebeantwortung, visuelles Ankerpunktsetzen) und verschiedenen Szenarien (z.B. zero-shot, few-shot). Darüber hinaus zeigen unsere anweisungsbasiert angepassten Qwen-VL-Chats auf realen Dialogbenchmarks eine Überlegenheit im Vergleich zu bestehenden visuellen Sprachchatbots. Der Quellcode, die Demoversion und die Modelle sind unter https://github.com/QwenLM/Qwen-VL verfügbar.