HyperAIHyperAI
vor 7 Tagen

Erkennung von Fußballereignissen mithilfe eines Zweistrom-Convolutional Neural Network und eines dilatierten rekurrenten Neural Network

{Ram Gopal Raj, Erma Rahayu Mohd Faizal, Behzad Mahaseni}
Abstract

Diese Arbeit befasst sich mit dem Problem der Ereigniserkennung und -lokalisierung in langen Fußball-(Soccer-)Videos. Unser zentrales Konzept besagt, dass das Verständnis langreichweitiger Abhängigkeiten zwischen Videobildern für eine präzise Ereignislokalisierung in langen Fußballvideos unerlässlich ist. Zudem ist eine korrekte Ereigniserkennung bei schnellen Bewegungen in Fußballvideos ohne Berücksichtigung von mittel- und kurzreichweitigen Korrelationen zwischen benachbarten Bildern kaum möglich. Wir argumentieren, dass die Ereignislokalisierung erheblich verbessert werden kann, indem kurz- bis langreichweitige Frame-Abhängigkeiten in einer einheitlichen Architektur berücksichtigt werden. Um lang- und mittelreichweitige Abhängigkeiten zu modellieren, schlagen wir die Verwendung eines dilatierten rekurrenten neuronalen Netzes (DilatedRNN) mit Long Short-Term Memory (LSTM)-Einheiten vor, das auf zwei-Stream-Convolutional Neural Network (Two-stream CNN)-Merkmale basiert. Während der Two-stream CNN lokale räumlich-zeitliche Merkmale für feinere Details extrahiert, ermöglicht das DilatedRNN, Informationen aus entfernten Bildern für Klassifikatoren und Lokalisierungsalgorithmen nutzbar zu machen. Die Evaluierung unseres Ereignislokalisierungsalgorithmus auf dem größten öffentlich verfügbaren Benchmark-Fußball-Datensatz – SoccerNet – zeigt eine Genauigkeitssteigerung von 0,8 % bis 13,6 % gegenüber dem Stand der Technik und bis zu 30,1 % gegenüber den Baseline-Modellen. Zudem untersuchen wir durch eine umfassende Ablationstudie den Beitrag jedes einzelnen neuronalen Netzwerkkomponenten zur Lokalisierungsgenauigkeit.

Erkennung von Fußballereignissen mithilfe eines Zweistrom-Convolutional Neural Network und eines dilatierten rekurrenten Neural Network | Neueste Forschungsarbeiten | HyperAI