HyperAIHyperAI

Command Palette

Search for a command to run...

Kollaborative Transformer für die erkennung von situativen Grundlagen

Cho Junhyeong ; Yoon Youngseok ; Kwak Suha

Zusammenfassung

Die Aufgabe der situativen Erkennung mit Grundlage (grounded situation recognition) besteht darin, die Hauptaktivität, die Entitäten, die bestimmte Rollen innerhalb dieser Aktivität spielen, sowie die Begrenzungsrahmen (bounding-box groundings) dieser Entitäten im gegebenen Bild vorherzusagen. Um diese anspruchsvolle Aufgabe effektiv zu bewältigen, stellen wir einen neuen Ansatz vor, bei dem die beiden Prozesse für die Aktivitätsklassifizierung und die Entitätschätzung interaktiv und ergänzend sind. Um diese Idee umzusetzen, schlagen wir den kollaborativen Blick-Fokus-TransFormer (Collaborative Glance-Gaze TransFormer, CoFormer) vor, der aus zwei Modulen besteht: dem Blick-TransFormer für die Aktivitätsklassifizierung und dem Fokus-TransFormer für die Entitätschätzung. Der Blick-TransFormer prognostiziert die Hauptaktivität unter Zuhilfenahme des Fokus-TransFormers, der Entitäten und ihre Beziehungen analysiert. Gleichzeitig schätzt der Fokus-TransFormer die grundierten Entitäten, indem er sich ausschließlich auf diejenigen Entitäten konzentriert, die für die von dem Blick-TransFormer vorhergesagte Aktivität relevant sind. Unser CoFormer erreicht den aktuellen Stand der Technik in allen Bewertungsmaßen auf dem SWiG-Datensatz. Das Trainingscode und die Modellgewichte sind unter https://github.com/jhcho99/CoFormer verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp