Interaktionsbereichs-Visual-Transformer für egozentrische Aktionsvorhersage

Die Interaktion zwischen Mensch und Objekt stellt eine der wichtigsten visuellen Hinweise dar, und wir schlagen eine neuartige Methode zur Repräsentation solcher Interaktionen für die egozentrische Aktionsvorhersage vor. Wir entwickeln eine neue Variante des Transformers, die Interaktionen durch die Berechnung der Veränderungen im Erscheinungsbild von Objekten und menschlichen Händen infolge der Ausführung von Aktionen modelliert und diese Veränderungen nutzt, um die Video-Repräsentation zu verfeinern. Konkret modellieren wir die Interaktionen zwischen Händen und Objekten mittels Spatial Cross-Attention (SCA) und integrieren darüber hinaus kontextuelle Informationen mittels Trajectory Cross-Attention, um umgebungsfokussierte Interaktions-Token zu generieren. Anhand dieser Token konstruieren wir eine interaktionszentrierte Video-Repräsentation zur Aktionsvorhersage. Unser Modell nennen wir InAViT, das auf großen egozentrischen Datensätzen wie EPICKITCHENS100 (EK100) und EGTEA Gaze+ die derzeit beste Leistung bei der Aktionsvorhersage erzielt. InAViT übertrifft andere auf Transformers basierende Methoden, einschließlich Ansätze mit objektorientierter Video-Repräsentation. Auf dem EK100-Evaluierungsserver ist InAViT die führende Methode auf der öffentlichen Rangliste (zum Zeitpunkt der Einreichung), wobei es das zweitbeste Modell um 3,3 Prozentpunkte im mittleren Top-5 Recall schlägt.