HyperAIHyperAI
vor 2 Monaten

AEI: Schauspieler-Umwelt-Interaktion mit adaptiver Aufmerksamkeit für die Generierung zeitlicher Aktionvorschläge

Khoa Vo; Hyekang Joo; Kashu Yamazaki; Sang Truong; Kris Kitani; Minh-Triet Tran; Ngan Le
AEI: Schauspieler-Umwelt-Interaktion mit adaptiver Aufmerksamkeit für die Generierung zeitlicher Aktionvorschläge
Abstract

Menschen nehmen die Ausführung einer Aktion in einem Video in der Regel durch die Interaktion zwischen einem Akteur und der umgebenden Umgebung wahr. Eine Aktion beginnt erst, wenn der Hauptakteur im Video mit der Umgebung interagiert, und endet, wenn dieser die Interaktion einstellt. Trotz des großen Fortschritts bei der Generierung zeitlicher Aktionenvorschläge ignorieren die meisten bisherigen Arbeiten diese Tatsache und lassen das Lernen ihres Modells, Aktionen vorzuschlagen, als Black-Box. In diesem Artikel versuchen wir, diese menschliche Fähigkeit zu simulieren, indem wir das Actor Environment Interaction (AEI)-Netzwerk vorschlagen, um die Videodarstellung für die Generierung zeitlicher Aktionenvorschläge zu verbessern. AEI besteht aus zwei Modulen: dem wahrnehmungsbasierten visuellen Repräsentationsmodul (Perception-based Visual Representation, PVR) und dem Grenzen-abgleichenden Modul (Boundary-Matching Module, BMM). PVR repräsentiert jeden Videoschnipsel unter Berücksichtigung von Mensch-Mensch-Beziehungen und Mensch-Umgebung-Beziehungen mithilfe des vorgeschlagenen adaptiven Aufmerksamheitsmechanismus. Anschließend wird die Videodarstellung vom BMM verwendet, um Aktionenvorschläge zu generieren. AEI wurde in den Datensätzen ActivityNet-1.3 und THUMOS-14 umfassend evaluiert, sowohl bei der Generierung zeitlicher Aktionenvorschläge als auch bei der Erkennung zeitlicher Aktionen, unter Verwendung zweier Grenzen-abgleichender Architekturen (d.h., CNN-basierter und GCN-basierter) und zweier Klassifizierer (d.h., Unet und P-GCN). Unsere AEI erzielt robust bessere Ergebnisse als die bislang besten Methoden sowohl bei der Generierung zeitlicher Aktionenvorschläge als auch bei der Erkennung zeitlicher Aktionen, was sich durch bemerkenswerte Leistungsfähigkeit und Generalisierungskraft auszeichnet.

AEI: Schauspieler-Umwelt-Interaktion mit adaptiver Aufmerksamkeit für die Generierung zeitlicher Aktionvorschläge | Neueste Forschungsarbeiten | HyperAI