Symbiotische Aufmerksamkeit mit privilegierter Information für egozentrische Aktionserkennung

Die Erkennung egozentrischer Videos ist ein natürlicher Teststand für verschiedene Interaktionsanalysen. Aufgrund des umfangreichen Aktionsspektrums in egozentrischen Videodatensätzen nutzen aktuelle Studien in der Regel eine zweigeteilte Struktur zur Aktionserkennung, d.h., eine Ast für die Verbklassifikation und der andere Ast für die Substantivklassifikation. Allerdings wurden Korrelationsstudien zwischen den Verb- und Substantivästen weitgehend vernachlässigt. Darüber hinaus sind die beiden Äste aufgrund des Fehlens eines positionsbewussten Aufmerksamkeitsmechanismus nicht in der Lage, lokale Merkmale auszunutzen. In dieser Arbeit schlagen wir einen neuen symbiotischen Aufmerksamkeitsrahmen unter Verwendung von privilegierten Informationen (SAP) für die Erkennung egozentrischer Videos vor. Feinere, positionsbewusste Objekterkennungsmerkmale können das Verständnis der Interaktion des Akteurs mit dem Objekt fördern. Wir führen diese Merkmale in die Aktionserkennung ein und betrachten sie als privilegierte Informationen. Unser Rahmen ermöglicht eine gegenseitige Kommunikation zwischen dem Verbast, dem Substantivast und den privilegierten Informationen. Dieser Kommunikationsprozess injiziert nicht nur lokale Details in globale Merkmale, sondern nutzt auch implizite Anleitungen über die räumlich-zeitliche Position einer laufenden Aktion. Wir führen einen neuen symbiotischen Aufmerksamkeitsmechanismus (SA) ein, um eine effektive Kommunikation zu gewährleisten. Zunächst normalisiert SA die detektionsgesteuerten Merkmale eines Astes, um die aktionsrelevante Information vom anderen Ast zu betonen. SA verstärkt adaptiv die Interaktionen zwischen den drei Quellen. Um diesen Kommunikationsprozess weiter zu beschleunigen, werden räumliche Beziehungen aufgedeckt, um die am stärksten aktionsrelevanten Informationen auszuwählen. Es identifiziert das wertvollste und diskriminativste Merkmal für die Klassifikation. Wir bestätigen die Effektivität unseres SAP sowohl quantitativ als auch qualitativ. Bemerkenswerterweise erreicht es den aktuellen Stand der Technik auf zwei großen egozentrischen Videodatensätzen.