Command Palette
Search for a command to run...
Multi-Grained Vision Language Pre-Training: Die Ausrichtung von Texten mit visuellen Konzepten
Multi-Grained Vision Language Pre-Training: Die Ausrichtung von Texten mit visuellen Konzepten
Yan Zeng Xinsong Zhang Hang Li
Zusammenfassung
Die meisten bestehenden Methoden im Bereich der visuellen Sprachvorbereitung (vision language pre-training) basieren auf objektzentrierten Merkmalen, die durch Objekterkennung extrahiert werden, und stellen feingranulare Zuordnungen zwischen den extrahierten Merkmalen und Texten her. Es ist jedoch für diese Methoden schwierig, Beziehungen zwischen mehreren Objekten zu lernen. Um dieses Problem anzugehen, schlagen wir eine neue Methode namens X-VLM vor, die „multigranulare visuelle Sprachvorbereitung“ durchführt. Der Schlüssel zur Lernung multigranularer Zuordnungen besteht darin, visuelle Konzepte im Bild anhand der zugehörigen Texte zu lokalisieren und gleichzeitig diese Texte mit den visuellen Konzepten abzugleichen, wobei die Zuordnungen in verschiedenen Granularitätsstufen erfolgen. Experimentelle Ergebnisse zeigen, dass X-VLM die gelernten multigranularen Zuordnungen effektiv für viele nachgeschaltete visuelle Sprachaufgaben nutzt und konsistent bessere Leistungen als die bislang besten Methoden erzielt.