HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-Grained Vision Language Pre-Training: Die Ausrichtung von Texten mit visuellen Konzepten

Yan Zeng Xinsong Zhang Hang Li

Zusammenfassung

Die meisten bestehenden Methoden im Bereich der visuellen Sprachvorbereitung (vision language pre-training) basieren auf objektzentrierten Merkmalen, die durch Objekterkennung extrahiert werden, und stellen feingranulare Zuordnungen zwischen den extrahierten Merkmalen und Texten her. Es ist jedoch für diese Methoden schwierig, Beziehungen zwischen mehreren Objekten zu lernen. Um dieses Problem anzugehen, schlagen wir eine neue Methode namens X-VLM vor, die „multigranulare visuelle Sprachvorbereitung“ durchführt. Der Schlüssel zur Lernung multigranularer Zuordnungen besteht darin, visuelle Konzepte im Bild anhand der zugehörigen Texte zu lokalisieren und gleichzeitig diese Texte mit den visuellen Konzepten abzugleichen, wobei die Zuordnungen in verschiedenen Granularitätsstufen erfolgen. Experimentelle Ergebnisse zeigen, dass X-VLM die gelernten multigranularen Zuordnungen effektiv für viele nachgeschaltete visuelle Sprachaufgaben nutzt und konsistent bessere Leistungen als die bislang besten Methoden erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Multi-Grained Vision Language Pre-Training: Die Ausrichtung von Texten mit visuellen Konzepten | Paper | HyperAI