Qwen-VL: Ein vielseitiges visuellsprachliches Modell für Verständnis, Lokalisierung, Texterkennung und mehr

In dieser Arbeit stellen wir die Qwen-VL-Reihe vor, eine Reihe großskaliger visueller Sprachmodelle (VSMs), die entwickelt wurden, um sowohl Texte als auch Bilder wahrzunehmen und zu verstehen. Ausgehend vom Qwen-LM als Grundlage, versehen wir es mit visuellen Fähigkeiten durch sorgfältig gestaltete (i) visuelle Rezeptoren, (ii) Eingabe-Ausgabe-Schnittstellen, (iii) dreistufige Trainingspipeline und (iv) mehrsprachige multimodale gereinigte Korpora. Neben den konventionellen Aufgaben der Bildbeschreibung und Fragebeantwortung implementieren wir die Fähigkeiten des Ankerpunkts und des Textlesens von Qwen-VLs durch das Ausrichten von Bild-Beschriftung-Box-Tupeln. Die resultierenden Modelle, einschließlich Qwen-VL und Qwen-VL-Chat, setzen neue Rekordwerte für Generalist-Modelle ähnlicher Größenordnung in einer breiten Palette von bildzentrierten Benchmarks (z.B. Bildbeschriftung, Fragebeantwortung, visuelles Ankerpunktsetzen) und verschiedenen Szenarien (z.B. zero-shot, few-shot). Darüber hinaus zeigen unsere anweisungsbasiert angepassten Qwen-VL-Chats auf realen Dialogbenchmarks eine Überlegenheit im Vergleich zu bestehenden visuellen Sprachchatbots. Der Quellcode, die Demoversion und die Modelle sind unter https://github.com/QwenLM/Qwen-VL verfügbar.