Kollaborative Transformer für die erkennung von situativen Grundlagen

Die Aufgabe der situativen Erkennung mit Grundlage (grounded situation recognition) besteht darin, die Hauptaktivität, die Entitäten, die bestimmte Rollen innerhalb dieser Aktivität spielen, sowie die Begrenzungsrahmen (bounding-box groundings) dieser Entitäten im gegebenen Bild vorherzusagen. Um diese anspruchsvolle Aufgabe effektiv zu bewältigen, stellen wir einen neuen Ansatz vor, bei dem die beiden Prozesse für die Aktivitätsklassifizierung und die Entitätschätzung interaktiv und ergänzend sind. Um diese Idee umzusetzen, schlagen wir den kollaborativen Blick-Fokus-TransFormer (Collaborative Glance-Gaze TransFormer, CoFormer) vor, der aus zwei Modulen besteht: dem Blick-TransFormer für die Aktivitätsklassifizierung und dem Fokus-TransFormer für die Entitätschätzung. Der Blick-TransFormer prognostiziert die Hauptaktivität unter Zuhilfenahme des Fokus-TransFormers, der Entitäten und ihre Beziehungen analysiert. Gleichzeitig schätzt der Fokus-TransFormer die grundierten Entitäten, indem er sich ausschließlich auf diejenigen Entitäten konzentriert, die für die von dem Blick-TransFormer vorhergesagte Aktivität relevant sind. Unser CoFormer erreicht den aktuellen Stand der Technik in allen Bewertungsmaßen auf dem SWiG-Datensatz. Das Trainingscode und die Modellgewichte sind unter https://github.com/jhcho99/CoFormer verfügbar.