HyperAIHyperAI

Command Palette

Search for a command to run...

Qwen-VL: Ein vielseitiges visuellsprachliches Modell für Verständnis, Lokalisierung, Texterkennung und mehr

Jinze Bai Shuai Bai Shusheng Yang Shijie Wang Sinan Tan Peng Wang Junyang Lin Chang Zhou Jingren Zhou

Zusammenfassung

In dieser Arbeit stellen wir die Qwen-VL-Reihe vor, eine Reihe großskaliger visueller Sprachmodelle (VSMs), die entwickelt wurden, um sowohl Texte als auch Bilder wahrzunehmen und zu verstehen. Ausgehend vom Qwen-LM als Grundlage, versehen wir es mit visuellen Fähigkeiten durch sorgfältig gestaltete (i) visuelle Rezeptoren, (ii) Eingabe-Ausgabe-Schnittstellen, (iii) dreistufige Trainingspipeline und (iv) mehrsprachige multimodale gereinigte Korpora. Neben den konventionellen Aufgaben der Bildbeschreibung und Fragebeantwortung implementieren wir die Fähigkeiten des Ankerpunkts und des Textlesens von Qwen-VLs durch das Ausrichten von Bild-Beschriftung-Box-Tupeln. Die resultierenden Modelle, einschließlich Qwen-VL und Qwen-VL-Chat, setzen neue Rekordwerte für Generalist-Modelle ähnlicher Größenordnung in einer breiten Palette von bildzentrierten Benchmarks (z.B. Bildbeschriftung, Fragebeantwortung, visuelles Ankerpunktsetzen) und verschiedenen Szenarien (z.B. zero-shot, few-shot). Darüber hinaus zeigen unsere anweisungsbasiert angepassten Qwen-VL-Chats auf realen Dialogbenchmarks eine Überlegenheit im Vergleich zu bestehenden visuellen Sprachchatbots. Der Quellcode, die Demoversion und die Modelle sind unter https://github.com/QwenLM/Qwen-VL verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp