Neuüberprüfung von raumzeitlichen Layouts für die zusammengesetzte Aktionserkennung

Die Erkennung menschlicher Aktionen ist grundsätzlich ein Problem des spatio-temporalen Schließens und sollte zumindest teilweise invariant gegenüber dem Erscheinungsbild des Menschen und der beteiligten Objekte sein. Ausgehend von dieser Hypothese verfolgen wir in dieser Arbeit einen objektzentrierten Ansatz zur Aktionserkennung. Mehrere Arbeiten haben bereits dieses Setting untersucht, doch bleibt unklar (i) wie gut ein sorgfältig entworfener, auf spatio-temporalen Layouts basierender Ansatz menschliche Aktionen erkennen kann, und (ii) wie und wann Informationen aus Layout- und Erscheinungs-basierten Modellen sinnvoll fusioniert werden sollten. Der Schwerpunkt dieser Arbeit liegt auf kompositionaler / Few-Shot-Aktionserkennung, bei der wir die Verwendung von Multi-Head-Attention (die sich bereits als wirksam für räumliches Schließen erwiesen hat) über spatio-temporalen Layouts, d. h. Konfigurationen von Objektbegrenzungsboxen, befürworten. Wir evaluieren verschiedene Ansätze zur Integration von Video-Erscheinungsinformationen in das System und benchmarken unseren Ansatz auf der Aufgabe der Aktionserkennung in störender Hintergrundumgebung. Auf den Datensätzen Something-Else und Action Genome zeigen wir (i) wie Multi-Head-Attention für die auf spatio-temporalen Layouts basierende Aktionserkennung erweitert werden kann, (ii) wie die Leistung von Erscheinungs-basierten Modellen durch die Fusion mit Layout-basierten Modellen verbessert werden kann, und (iii) dass selbst auf nicht-kompositionalen, störenden Hintergrund-Datensätzen eine Fusion zwischen Layout- und Erscheinungs-basierten Modellen die Gesamtleistung steigert.