HyperAIHyperAI
vor 2 Monaten

WOAD: Schwach überwachte Online-Aktionserkennung in ungeschnittenen Videos

Gao, Mingfei ; Zhou, Yingbo ; Xu, Ran ; Socher, Richard ; Xiong, Caiming
WOAD: Schwach überwachte Online-Aktionserkennung in ungeschnittenen Videos
Abstract

Die Online-Aktionserkennung in unbeschnittenen Videos zielt darauf ab, Aktionen im Moment ihres Auftretens zu identifizieren, was sie für Echtzeit-Anwendungen sehr wichtig macht. Vorherige Methoden basieren auf mühsamen Annotationen der zeitlichen Aktionsschranken für das Training, was die Skalierbarkeit von Online-Aktionserkennungssystemen behindert. Wir schlagen WOAD vor, einen schwach überwachten Rahmen, der nur mit Video-Klassenbezeichnungen trainiert werden kann. WOAD besteht aus zwei gleichzeitig trainierten Modulen, nämlich dem zeitlichen Vorschlagsgenerator (Temporal Proposal Generator, TPG) und dem Online-Aktionserkennungsmodul (Online Action Recognizer, OAR). Unter der Aufsicht der Video-Klassenbezeichnungen arbeitet der TPG offline und zielt darauf ab, pseudoframebasierte Bezeichnungen für den OAR präzise zu extrahieren. Mit den Überwachungssignalen des TPG lernt der OAR, die Aktionserkennung in Echtzeit durchzuführen. Experimentelle Ergebnisse auf THUMOS'14, ActivityNet1.2 und ActivityNet1.3 zeigen, dass unsere schwach überwachte Methode stark überwachte Baseline-Methoden weit übertrifft und vergleichbare Leistungen wie die bisherigen stark überwachten Methoden erzielt. Darüber hinaus ist WOAD flexibel genug, um starke Überwachung zu nutzen, wenn diese verfügbar ist. Bei starker Überwachung erreicht unsere Methode den aktuellen Stand der Technik sowohl bei der Online-Erkennung von Aktionsklassifikation pro Frame als auch bei der Online-Erkennung des Beginns von Aktionen.