Command Palette
Search for a command to run...
Temporale Aktionserkennung in ungeschnittenen Videos durch mehrstufige CNNs
Temporale Aktionserkennung in ungeschnittenen Videos durch mehrstufige CNNs
Zheng Shou Dongang Wang Shih-Fu Chang
Zusammenfassung
Wir befassen uns mit der zeitlichen Aktionserkennung in unbeschnittenen langen Videos. Dies ist von Bedeutung, da Videos in realen Anwendungen in der Regel unstrukturiert sind und mehrere Aktionsinstanzen sowie Videoinhalte von Hintergrundszenen oder anderen Aktivitäten enthalten. Um diese herausfordernde Aufgabe anzugehen, nutzen wir die Effektivität tiefer Netzwerke in der zeitlichen Aktionserkennung durch drei segmentbasierte 3D ConvNets: (1) ein Vorschlagsnetzwerk identifiziert potenzielle Segmente in einem langen Video, die Aktionen enthalten könnten; (2) ein Klassifikationsnetzwerk lernt ein One-vs-All-Aktionsklassifikationsmodell, das als Initialisierung für das Lokalisierungsnetzwerk dient; und (3) ein Lokalisierungsnetzwerk feintune-t auf dem gelernten Klassifikationsnetzwerk, um jede Aktionsinstanz zu lokalisieren. Wir schlagen eine neuartige Verlustfunktion für das Lokalisierungsnetzwerk vor, die die zeitliche Überlappung explizit berücksichtigt und daher eine hohe zeitliche Lokalisierungsgenauigkeit erzielt. Während der Vorhersage werden nur das Vorschlagsnetzwerk und das Lokalisierungsnetzwerk verwendet. Bei zwei großen Benchmarks erzielt unser Ansatz im Vergleich zu anderen state-of-the-art-Systemen deutlich überlegene Leistungen: Das mAP steigt von 1,7 % auf 7,4 % bei MEXaction2 und von 15,0 % auf 19,0 % bei THUMOS 2014, wenn der Überlappungsschwellwert für die Bewertung auf 0,5 gesetzt wird.