HyperAIHyperAI
vor 2 Monaten

UnbeschnitteneNetze für die schwach überwachte Aktionserkennung und -detektion

Limin Wang; Yuanjun Xiong; Dahua Lin; Luc Van Gool
UnbeschnitteneNetze für die schwach überwachte Aktionserkennung und -detektion
Abstract

Aktuelle Methoden zur Aktionserkennung basieren stark auf zugeschnittenen Videos für das Modelltraining. Allerdings ist es kostspielig und zeitaufwendig, eine umfangreiche Datensammlung von zugeschnittenen Videos zu erlangen. In dieser Arbeit wird eine neue schwach überwachte Architektur vorgestellt, die UntrimmedNet genannt wird. Diese Architektur kann Aktionserkennungsmodelle direkt aus ungeschnittenen Videos lernen, ohne die zeitliche Annotation von Aktionsinstanzen zu benötigen. Unser UntrimmedNet verbindet zwei wichtige Komponenten: den Klassifikationsmodul und den Selektionsmodul. Der Klassifikationsmodul lernt die Aktionssignaturen, während der Selektionsmodul die zeitliche Dauer der Aktionsinstanzen bestimmt. Beide Komponenten werden mit Feed-Forward-Netzwerken implementiert, wodurch UntrimmedNet eine end-to-end trainierbare Architektur darstellt. Wir nutzen die gelernten Modelle für die Aktionserkennung (WSR) und -detektion (WSD) in den ungeschnittenen Video-Datensätzen von THUMOS14 und ActivityNet. Obwohl unser UntrimmedNet nur schwach überwacht wird, erreicht unsere Methode Leistungen, die denen stärker überwachter Ansätze in diesen beiden Datensätzen überlegen oder vergleichbar sind.