HyperAIHyperAI
vor 2 Monaten

TagAlign: Verbesserung der Bild-Sprach-Ausrichtung durch Multitag-Klassifizierung

Qinying Liu; Wei Wu; Kecheng Zheng; Zhan Tong; Jiawei Liu; Yu Liu; Wei Chen; Zilei Wang; Yujun Shen
TagAlign: Verbesserung der Bild-Sprach-Ausrichtung durch Multitag-Klassifizierung
Abstract

Der Kern der Lernmethoden für visuelle Sprachmodelle besteht darin, semantisch ausgerichtete Informationen aus visuellen und sprachlichen Daten zu extrahieren. Bestehende Ansätze stoßen oft auf das Problem einer groben Ausrichtung, z.B. der visuelle Encoder hat Schwierigkeiten, ein attribut-spezifisches Objekt zu lokalisieren. In dieser Arbeit schlagen wir einen erstaunlich einfachen Ansatz vor, um die Ausrichtung von Bild- und Textmerkmalen ohne zusätzliche Datendateien außer Bild-Text-Paaren zu verbessern. Konkret gelingt es uns, bei einem Bild und dessen zugehörigen Text, Objekte (z.B. Katze) und Attribute (z.B. schwarz) aus der Beschreibung zu analysieren, die höchstwahrscheinlich im Bild vorhanden sind. Es ist bemerkenswert, dass der Analyseprozess vollständig automatisch erfolgt und daher eine gute Skalierbarkeit aufweist. Mit diesen analysierten Semantiken als Supervisionsignale können wir den üblicherweise verwendeten kontrastiven Verlust zwischen Bild und Text durch den Multi-Tag-Klassifikationsverlust ergänzen. Umfangreiche experimentelle Ergebnisse auf einer breiten Palette von semantischen Segmentierungsdatasets bestätigen eine durchschnittliche Verbesserung unseres Frameworks um 5,2 % im Vergleich zu bestehenden Alternativen. Darüber hinaus deuten die Visualisierungsergebnisse darauf hin, dass die Attributsupervision visuelle Sprachmodelle dazu befähigt, attribut-spezifische Objekte genauer zu lokalisieren. Die Projektseite kann unter https://qinying-liu.github.io/Tag-Align gefunden werden.

TagAlign: Verbesserung der Bild-Sprach-Ausrichtung durch Multitag-Klassifizierung | Neueste Forschungsarbeiten | HyperAI