vor 8 Monaten

Zusammenfassung

Situationserkennung ist die Aufgabe, eine strukturierte Zusammenfassung dessen zu generieren, was in einem Bild geschieht, indem man ein Aktivitätsverb und die semantischen Rollen verwendet, die von Akteuren und Objekten gespielt werden. Bei dieser Aufgabe kann dasselbe Aktivitätsverb eine vielfältige Menge an Situationen beschreiben, ebenso wie dieselbe Akteur- oder Objektkategorie je nach dargestellter Situation eine Vielzahl von semantischen Rollen übernehmen kann. Daher muss ein Modell zur Situationserkennung den Kontext des Bildes und die visuell-linguistische Bedeutung der semantischen Rollen verstehen. Wir nutzen daher das grundlegende Modell CLIP, das durch sprachliche Beschreibungen den Kontext von Bildern gelernt hat. Wir zeigen, dass tiefere und breitere Mehrlagenschicht-Perzeptron (MLP)-Blöcke bemerkenswerte Ergebnisse für die Situationserkennung erzielen, indem sie CLIP-Bild- und Texteinbettungsmerkmale verwenden. Dies übertrifft sogar den aktuellen Stand der Technik CoFormer, ein auf Transformer basierendes Modell, dank des externen impliziten visuell-linguistischen Wissens, das von CLIP erfasst wird, und der Ausdrucksstärke moderner MLP-Blockdesigns. Angeregt durch diese Erkenntnisse haben wir einen Transformer mit kreuzweise Aufmerksamkeit entworfen, der mithilfe von CLIP-visuellen Token die Beziehung zwischen textuellen Rollen und visuellen Entitäten modelliert. Unser kreuzweise Aufmerksamkeit basierender Transformer, bekannt als ClipSitu XTF, übertreffen bestehende Standards bei der Semantik-Rollen-Beschriftung (value) um einen beträchtlichen Marginalwert von 14.1 % in der Top-1-Akkuranz unter Verwendung des imSitu-Datensatzes. {Ebenso erreicht unser ClipSitu XTF den aktuellen Stand der Technik bei der Situation-Lokalisierung.} Wir werden den Code öffentlich zur Verfügung stellen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Roy Debaditya ; Verma Dhruv ; Fernando Basura

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 8 Monaten

Roy Debaditya ; Verma Dhruv ; Fernando Basura

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

ClipSitu: Effektive Nutzung von CLIP für bedingte Vorhersagen in der Situationserkennung | Paper | HyperAI

Command Palette

ClipSitu: Effektive Nutzung von CLIP für bedingte Vorhersagen in der Situationserkennung

Roy Debaditya ; Verma Dhruv ; Fernando Basura

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ClipSitu: Effektive Nutzung von CLIP für bedingte Vorhersagen in der Situationserkennung

Roy Debaditya ; Verma Dhruv ; Fernando Basura

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ClipSitu: Effektive Nutzung von CLIP für bedingte Vorhersagen in der Situationserkennung

Roy Debaditya ; Verma Dhruv ; Fernando Basura

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters