HyperAIHyperAI
vor 2 Monaten

ClipSitu: Effektive Nutzung von CLIP für bedingte Vorhersagen in der Situationserkennung

Roy, Debaditya ; Verma, Dhruv ; Fernando, Basura
ClipSitu: Effektive Nutzung von CLIP für bedingte Vorhersagen in der Situationserkennung
Abstract

Situationserkennung ist die Aufgabe, eine strukturierte Zusammenfassung dessen zu generieren, was in einem Bild geschieht, indem man ein Aktivitätsverb und die semantischen Rollen verwendet, die von Akteuren und Objekten gespielt werden. Bei dieser Aufgabe kann dasselbe Aktivitätsverb eine vielfältige Menge an Situationen beschreiben, ebenso wie dieselbe Akteur- oder Objektkategorie je nach dargestellter Situation eine Vielzahl von semantischen Rollen übernehmen kann. Daher muss ein Modell zur Situationserkennung den Kontext des Bildes und die visuell-linguistische Bedeutung der semantischen Rollen verstehen. Wir nutzen daher das grundlegende Modell CLIP, das durch sprachliche Beschreibungen den Kontext von Bildern gelernt hat. Wir zeigen, dass tiefere und breitere Mehrlagenschicht-Perzeptron (MLP)-Blöcke bemerkenswerte Ergebnisse für die Situationserkennung erzielen, indem sie CLIP-Bild- und Texteinbettungsmerkmale verwenden. Dies übertrifft sogar den aktuellen Stand der Technik CoFormer, ein auf Transformer basierendes Modell, dank des externen impliziten visuell-linguistischen Wissens, das von CLIP erfasst wird, und der Ausdrucksstärke moderner MLP-Blockdesigns. Angeregt durch diese Erkenntnisse haben wir einen Transformer mit kreuzweise Aufmerksamkeit entworfen, der mithilfe von CLIP-visuellen Token die Beziehung zwischen textuellen Rollen und visuellen Entitäten modelliert. Unser kreuzweise Aufmerksamkeit basierender Transformer, bekannt als ClipSitu XTF, übertreffen bestehende Standards bei der Semantik-Rollen-Beschriftung (value) um einen beträchtlichen Marginalwert von 14.1 % in der Top-1-Akkuranz unter Verwendung des imSitu-Datensatzes. {Ebenso erreicht unser ClipSitu XTF den aktuellen Stand der Technik bei der Situation-Lokalisierung.} Wir werden den Code öffentlich zur Verfügung stellen.

ClipSitu: Effektive Nutzung von CLIP für bedingte Vorhersagen in der Situationserkennung | Neueste Forschungsarbeiten | HyperAI