Aufmerksamkeitsbasierte kontextbewusste Reasoning für die Situationserkennung

Situation Recognition (SR) ist eine feinabgestimmte Aktionserkennungsaufgabe, bei der das Modell nicht nur die markante Aktion eines Bildes vorhersagen soll, sondern auch die Werte aller zugehörigen semantischen Rollen der Aktion bestimmen muss. Die Vorhersage semantischer Rollen ist äußerst herausfordernd: Für eine semantische Rolle existiert eine große Vielzahl möglicher Zuordnungen. Bisherige Ansätze konzentrieren sich auf Abhängigkeitsmodellierungsarchitekturen, um dieses Problem zu lösen. Inspiriert durch den Erfolg abfragbaserter visueller Schlussfolgerung (z. B. Visual Question Answering) schlagen wir vor, die Vorhersage semantischer Rollen als eine abfragbasierte visuelle Schlussfolgerungsaufgabe zu betrachten. Allerdings berücksichtigen bestehende abfragbasierte Schlussfolgerungsmethoden nicht die Behandlung voneinander abhängiger Abfragen – eine einzigartige Anforderung bei der semantischen Rollenvorhersage in SR. Daher stellen wir, soweit uns bekannt ist, die ersten Methoden vor, die abhängige Abfragen in abfragbasierten visuellen Schlussfolgerungsprozessen adressieren. Umfangreiche Experimente belegen die Wirksamkeit unseres Ansatzes, der herausragende Leistung im Task der Situation Recognition erzielt. Zudem verbessern unsere Methoden eine state-of-the-art-Methode, die Abfragen getrennt beantwortet, durch gezielte Nutzung der Abfrageabhängigkeit. Unser Code ist unter folgender Adresse verfügbar: https://github.com/thilinicooray/context-aware-reasoning-for-sr