HyperAIHyperAI
vor 2 Monaten

Multi-Grained Vision Language Pre-Training: Die Ausrichtung von Texten mit visuellen Konzepten

Zeng, Yan ; Zhang, Xinsong ; Li, Hang
Multi-Grained Vision Language Pre-Training: Die Ausrichtung von Texten mit visuellen Konzepten
Abstract

Die meisten bestehenden Methoden im Bereich der visuellen Sprachvorbereitung (vision language pre-training) basieren auf objektzentrierten Merkmalen, die durch Objekterkennung extrahiert werden, und stellen feingranulare Zuordnungen zwischen den extrahierten Merkmalen und Texten her. Es ist jedoch für diese Methoden schwierig, Beziehungen zwischen mehreren Objekten zu lernen. Um dieses Problem anzugehen, schlagen wir eine neue Methode namens X-VLM vor, die „multigranulare visuelle Sprachvorbereitung“ durchführt. Der Schlüssel zur Lernung multigranularer Zuordnungen besteht darin, visuelle Konzepte im Bild anhand der zugehörigen Texte zu lokalisieren und gleichzeitig diese Texte mit den visuellen Konzepten abzugleichen, wobei die Zuordnungen in verschiedenen Granularitätsstufen erfolgen. Experimentelle Ergebnisse zeigen, dass X-VLM die gelernten multigranularen Zuordnungen effektiv für viele nachgeschaltete visuelle Sprachaufgaben nutzt und konsistent bessere Leistungen als die bislang besten Methoden erzielt.

Multi-Grained Vision Language Pre-Training: Die Ausrichtung von Texten mit visuellen Konzepten | Neueste Forschungsarbeiten | HyperAI