ABN: Agentenbewusste Grenznetze zur Generierung von zeitlichen Aktionenvorschlägen

Die Generierung von zeitlichen Aktionsvorschlägen (TAPG) hat das Ziel, zeitliche Intervalle von Aktionen in unbeschnittenen Videos zu schätzen. Dies ist eine herausfordernde Aufgabe, die jedoch bei vielen Videoanalyse- und -verstehensaufgaben eine wichtige Rolle spielt. Trotz der großen Erfolge im Bereich TAPG ignorieren die meisten existierenden Arbeiten die menschliche Wahrnehmung der Interaktion zwischen Akteuren und der umgebenden Umgebung, indem sie ein tiefes Lernmodell als Blackbox auf unbeschnittene Videos anwenden, um die visuelle Videorepräsentation zu extrahieren. Daher wäre es vorteilhaft und könnte potenziell die Leistungsfähigkeit von TAPG verbessern, wenn wir diese Interaktionen zwischen Akteuren und Umgebung erfassen könnten. In dieser Arbeit schlagen wir einen neuen Rahmen namens Agentenbewusstes Grenznetzwerk (ABN) vor, das aus zwei Unter-Netzwerken besteht: (i) einem Agentenbewussten Repräsentationsnetzwerk zur Gewinnung sowohl von Akteur-Akteur- als auch von Akteur-Umgebung-Beziehungen in der Videorepräsentation und (ii) einem Grenzerzeugungsnetzwerk zur Schätzung des Konfidenzwerts für zeitliche Intervalle. Im Agentenbewussten Repräsentationsnetzwerk werden die Interaktionen zwischen den Akteuren durch einen lokalen Pfad dargestellt, der auf einer lokalen Ebene arbeitet, um sich auf die Bewegungen der Akteure zu konzentrieren, während die Gesamtwahrnehmung der Umgebung durch einen globalen Pfad dargestellt wird, der auf einer globalen Ebene arbeitet, um die Effekte von Akteur-Umgebung wahrzunehmen. Ausführliche Evaluierungen an den Datensätzen THUMOS-14 mit 20 Aktionen und ActivityNet-1.3 mit 200 Aktionen unter Verwendung verschiedener Backbone-Netze (d.h., C3D, SlowFast und Two-Stream) zeigen, dass unser vorgeschlagenes ABN robust bessere Ergebnisse als state-of-the-art Methoden erzielt, unabhängig vom eingesetzten Backbone-Netz in Bezug auf TAPG. Wir untersuchen zudem die Qualität der Vorschläge, indem wir Vorschläge, die durch unsere Methode generiert wurden, in temporale Aktionsdetektionsframeworks integrieren und deren Detektionsleistung bewerten. Der Quellcode kann unter folgender URL gefunden werden: https://github.com/vhvkhoa/TAPG-AgentEnvNetwork.git.