Command Palette
Search for a command to run...
Qwen-VL: Ein vielseitiges visuellsprachliches Modell für Verständnis,
Lokalisierung, Texterkennung und mehr
Qwen-VL: Ein vielseitiges visuellsprachliches Modell für Verständnis, Lokalisierung, Texterkennung und mehr
Jinze Bai Shuai Bai Shusheng Yang Shijie Wang Sinan Tan Peng Wang Junyang Lin Chang Zhou Jingren Zhou
Zusammenfassung
In dieser Arbeit stellen wir die Qwen-VL-Reihe vor, eine Reihe großskaliger visueller Sprachmodelle (VSMs), die entwickelt wurden, um sowohl Texte als auch Bilder wahrzunehmen und zu verstehen. Ausgehend vom Qwen-LM als Grundlage, versehen wir es mit visuellen Fähigkeiten durch sorgfältig gestaltete (i) visuelle Rezeptoren, (ii) Eingabe-Ausgabe-Schnittstellen, (iii) dreistufige Trainingspipeline und (iv) mehrsprachige multimodale gereinigte Korpora. Neben den konventionellen Aufgaben der Bildbeschreibung und Fragebeantwortung implementieren wir die Fähigkeiten des Ankerpunkts und des Textlesens von Qwen-VLs durch das Ausrichten von Bild-Beschriftung-Box-Tupeln. Die resultierenden Modelle, einschließlich Qwen-VL und Qwen-VL-Chat, setzen neue Rekordwerte für Generalist-Modelle ähnlicher Größenordnung in einer breiten Palette von bildzentrierten Benchmarks (z.B. Bildbeschriftung, Fragebeantwortung, visuelles Ankerpunktsetzen) und verschiedenen Szenarien (z.B. zero-shot, few-shot). Darüber hinaus zeigen unsere anweisungsbasiert angepassten Qwen-VL-Chats auf realen Dialogbenchmarks eine Überlegenheit im Vergleich zu bestehenden visuellen Sprachchatbots. Der Quellcode, die Demoversion und die Modelle sind unter https://github.com/QwenLM/Qwen-VL verfügbar.