HyperAIHyperAI
vor 2 Monaten

Akteur-Kontext-Akteur-Beziehungsnetzwerk für die räumlich-zeitliche Aktionsskalierung

Junting Pan; Siyu Chen; Mike Zheng Shou; Yu Liu; Jing Shao; Hongsheng Li
Akteur-Kontext-Akteur-Beziehungsnetzwerk für die räumlich-zeitliche Aktionsskalierung
Abstract

Die Lokalisierung von Personen und die Erkennung ihrer Aktionen aus Videos stellt eine herausfordernde Aufgabe für die hochstufige Videoanalyse dar. Kürzliche Fortschritte wurden durch das Modellieren direkter paarweiser Beziehungen zwischen Entitäten erzielt. In dieser Arbeit gehen wir einen Schritt weiter und modellieren nicht nur direkte Beziehungen zwischen Paaren, sondern berücksichtigen auch indirekte höherstufige Beziehungen, die auf mehreren Elementen basieren. Wir schlagen vor, die Schauspieler-Kontext-Schauspieler-Beziehung (Actor-Context-Actor Relation) explizit zu modellieren, dies ist die Beziehung zwischen zwei Schauspielern auf der Grundlage ihrer Interaktionen mit dem Kontext. Zu diesem Zweck entwickeln wir ein Schauspieler-Kontext-Schauspieler-Beziehungsnetzwerk (ACAR-Net), das auf einem neuartigen Operator für höherstufiges Relationsschließen und einer Schauspieler-Kontext-Feature-Bank basiert, um indirektes Relationsschließen für die räumlich-zeitliche Aktionserkennung zu ermöglichen. Experimente mit den Datensätzen AVA und UCF101-24 zeigen die Vorteile des Modellierens von Schauspieler-Kontext-Schauspieler-Beziehungen, und Visualisierungen von Aufmerksamkeitskarten bestätigen zudem, dass unser Modell in der Lage ist, relevante höherstufige Beziehungen zu identifizieren, um die Aktionserkennung zu unterstützen. Bemerkenswerterweise rangiert unsere Methode im AVA-Kinetics-Aktionslokalisierungswettbewerb des ActivityNet Challenges 2020 an erster Stelle und übertrifft andere Teilnehmer um einen beträchtlichen Abstand (+6,71 mAP). Das Trainingscode und die Modelle werden unter https://github.com/Siyu-C/ACAR-Net zur Verfügung gestellt.