Neuüberlegung des Zweistufigen Rahmens für die begründete Situationserkennung

Die Grounded Situation Recognition (GSR), d.h. die Erkennung der prominenten Aktivitäts- (oder Verbs-) Kategorie in einem Bild (z.B. kaufen) und das Detektieren aller entsprechenden semantischen Rollen (z.B. Akteur und Waren), ist ein wesentlicher Schritt auf dem Weg zu einem "menschlichen" Ereignisverständnis. Da jedem Verb eine spezifische Menge an semantischen Rollen zugeordnet ist, greifen alle existierenden GSR-Methoden auf einen zweistufigen Ansatz zurück: In der ersten Stufe wird das Verb vorhergesagt, in der zweiten Stufe werden die semantischen Rollen detektiert. Es gibt jedoch offensichtliche Nachteile in beiden Stufen:1) Der weit verbreitete Kreuzentropieverlust (XE) für Objekterkennung ist bei der Verbklassifikation aufgrund der großen innerklassischen Variation und der hohen Ähnlichkeit zwischen verschiedenen täglichen Aktivitäten unzureichend.2) Alle semantischen Rollen werden autoregressiv detektiert, was die modellierung komplexer semantischer Beziehungen zwischen verschiedenen Rollen nicht ermöglicht.Zu diesem Zweck schlagen wir einen neuen SituFormer für GSR vor, der aus einem Coarse-to-Fine Verb Modell (CFVM) und einem Transformer-basierten Nomenmodell (TNM) besteht. Das CFVM ist ein zweistufiges Verbvorhersagemodell: Ein grobkörniges Modell, das mit XE-Verlust trainiert wurde, schlägt zunächst eine Reihe von Verbkandidaten vor. Anschließend ordnet ein feinkörniges Modell, das mit Triplet-Verlust trainiert wurde, diese Kandidaten unter Verwendung erweiterter Verbmerkmale (nicht nur trennbar, sondern auch diskriminativ) neu.Das TNM ist ein Transformer-basiertes Modell zur Detektion semantischer Rollen, das alle Rollen parallel erkennt. Dank der globalen Relationserfassungsfähigkeit und Flexibilität des Transformer-Decoders kann das TNM die statistische Abhängigkeit der Rollen vollständig ausloten. Ausführliche Validierungen am anspruchsvollen SWiG-Benchmark zeigen, dass SituFormer unter verschiedenen Metriken eine neue state-of-the-art-Leistung erzielt und signifikante Fortschritte macht.Der Quellcode ist unter https://github.com/kellyiss/SituFormer verfügbar.