Aufmerksamkeitsbasierte kontextbewusste Reasoning für die Situationserkennung
{ Wei Lu Ngai-Man Cheung Thilini Cooray}

Abstract
Situation Recognition (SR) ist eine feinabgestimmte Aktionserkennungsaufgabe, bei der das Modell nicht nur die markante Aktion eines Bildes vorhersagen soll, sondern auch die Werte aller zugehörigen semantischen Rollen der Aktion bestimmen muss. Die Vorhersage semantischer Rollen ist äußerst herausfordernd: Für eine semantische Rolle existiert eine große Vielzahl möglicher Zuordnungen. Bisherige Ansätze konzentrieren sich auf Abhängigkeitsmodellierungsarchitekturen, um dieses Problem zu lösen. Inspiriert durch den Erfolg abfragbaserter visueller Schlussfolgerung (z. B. Visual Question Answering) schlagen wir vor, die Vorhersage semantischer Rollen als eine abfragbasierte visuelle Schlussfolgerungsaufgabe zu betrachten. Allerdings berücksichtigen bestehende abfragbasierte Schlussfolgerungsmethoden nicht die Behandlung voneinander abhängiger Abfragen – eine einzigartige Anforderung bei der semantischen Rollenvorhersage in SR. Daher stellen wir, soweit uns bekannt ist, die ersten Methoden vor, die abhängige Abfragen in abfragbasierten visuellen Schlussfolgerungsprozessen adressieren. Umfangreiche Experimente belegen die Wirksamkeit unseres Ansatzes, der herausragende Leistung im Task der Situation Recognition erzielt. Zudem verbessern unsere Methoden eine state-of-the-art-Methode, die Abfragen getrennt beantwortet, durch gezielte Nutzung der Abfrageabhängigkeit. Unser Code ist unter folgender Adresse verfügbar: https://github.com/thilinicooray/context-aware-reasoning-for-sr
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| grounded-situation-recognition-on-swig | CAQ + RE-VGG | Top-1 Verb: 38.19 Top-1 Verb u0026 Value: 30.23 Top-5 Verbs: 65.05 Top-5 Verbs u0026 Value: 50.21 |
| situation-recognition-on-imsitu | CAQ + RE-VGG | Top-1 Verb: 38.19 Top-1 Verb u0026 Value: 30.23 Top-5 Verbs: 65.05 Top-5 Verbs u0026 Value: 50.21 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.