HyperAIHyperAI

Command Palette

Search for a command to run...

ClipSitu: Effektive Nutzung von CLIP für bedingte Vorhersagen in der Situationserkennung

Roy Debaditya ; Verma Dhruv ; Fernando Basura

Zusammenfassung

Situationserkennung ist die Aufgabe, eine strukturierte Zusammenfassung dessen zu generieren, was in einem Bild geschieht, indem man ein Aktivitätsverb und die semantischen Rollen verwendet, die von Akteuren und Objekten gespielt werden. Bei dieser Aufgabe kann dasselbe Aktivitätsverb eine vielfältige Menge an Situationen beschreiben, ebenso wie dieselbe Akteur- oder Objektkategorie je nach dargestellter Situation eine Vielzahl von semantischen Rollen übernehmen kann. Daher muss ein Modell zur Situationserkennung den Kontext des Bildes und die visuell-linguistische Bedeutung der semantischen Rollen verstehen. Wir nutzen daher das grundlegende Modell CLIP, das durch sprachliche Beschreibungen den Kontext von Bildern gelernt hat. Wir zeigen, dass tiefere und breitere Mehrlagenschicht-Perzeptron (MLP)-Blöcke bemerkenswerte Ergebnisse für die Situationserkennung erzielen, indem sie CLIP-Bild- und Texteinbettungsmerkmale verwenden. Dies übertrifft sogar den aktuellen Stand der Technik CoFormer, ein auf Transformer basierendes Modell, dank des externen impliziten visuell-linguistischen Wissens, das von CLIP erfasst wird, und der Ausdrucksstärke moderner MLP-Blockdesigns. Angeregt durch diese Erkenntnisse haben wir einen Transformer mit kreuzweise Aufmerksamkeit entworfen, der mithilfe von CLIP-visuellen Token die Beziehung zwischen textuellen Rollen und visuellen Entitäten modelliert. Unser kreuzweise Aufmerksamkeit basierender Transformer, bekannt als ClipSitu XTF, übertreffen bestehende Standards bei der Semantik-Rollen-Beschriftung (value) um einen beträchtlichen Marginalwert von 14.1 % in der Top-1-Akkuranz unter Verwendung des imSitu-Datensatzes. {Ebenso erreicht unser ClipSitu XTF den aktuellen Stand der Technik bei der Situation-Lokalisierung.} Wir werden den Code öffentlich zur Verfügung stellen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp