HyperAIHyperAI
vor 2 Monaten

Ereigniserkennung in grob annotierten Sportvideos durch parallele Multi-Rezeptivfeld-1D-Faltungen

Vats, Kanav ; Fani, Mehrnaz ; Walters, Pascale ; Clausi, David A. ; Zelek, John
Ereigniserkennung in grob annotierten Sportvideos durch parallele Multi-Rezeptivfeld-1D-Faltungen
Abstract

Bei Problemen wie der Analyse von Sportvideos ist es schwierig, genaue Annotations auf Frame-Ebene und die exakte Ereignisdauer zu erhalten, aufgrund der langen Videos und des großen Volumens an Videodaten. Dieses Problem tritt besonders in schnellen Sportarten wie Eishockey auf. Die Erstellung von Annotations auf einer groben Skala kann viel praktischer und zeit-effizienter sein. Wir schlagen die Aufgabe der Ereigniserkennung in grob annotierten Videos vor. Wir stellen eine Multi-Turm-Zeitkonvolutionsschicht-Architektur (Multi-Tower Temporal Convolutional Network) für die vorgeschlagene Aufgabe vor. Das Netzwerk verarbeitet mit Hilfe mehrerer Rezeptionsfelder Informationen in verschiedenen zeitlichen Skalen, um die Unsicherheit bezüglich des genauen Ereignisstandorts und der Dauer zu berücksichtigen. Wir zeigen die Effektivität der Architektur mit mehreren Rezeptionsfeldern durch geeignete Abschleifstudien (Ablation Studies). Die Methode wird an zwei Aufgaben evaluiert: Ereigniserkennung in grob annotierten Eishockey-Videos im NHL-Datensatz und Ereignisidentifikation im Fußball im SoccerNet-Datensatz. Beide Datensätze fehlen Annotations auf Frame-Ebene und haben sehr unterschiedliche Ereignishäufigkeiten. Experimentelle Ergebnisse demonstrieren die Effektivität des Netzwerks durch einen durchschnittlichen F1-Score von 55 % im NHL-Datensatz und durch eine wettbewerbsfähige Leistung im Vergleich zum Stand der Technik im SoccerNet-Datensatz. Wir glauben, dass unser Ansatz bei der Entwicklung praktischerer Pipelines für die Ereigniserkennung in Sportvideos helfen wird.

Ereigniserkennung in grob annotierten Sportvideos durch parallele Multi-Rezeptivfeld-1D-Faltungen | Neueste Forschungsarbeiten | HyperAI