Echtzeit-Ereignisdetektion in Fußballvideos mittels 3D-Faltungsneuraler Netze

In diesem Paper präsentieren wir einen Algorithmus zur automatischen Ereignisdetektion in Fußballvideos unter Verwendung von 3D-Convolutional Neural Networks. Der Algorithmus nutzt einen Schiebefensteransatz, um über ein gegebenes Video zu scannen und Ereignisse wie Tore, Gelb- und Rotkarten sowie Spielerwechsel zu erkennen. Wir testen die Methode an drei unterschiedlichen Datensätzen aus SoccerNet, der schwedischen Allsvenskan und der norwegischen Eliteserien. Insgesamt zeigen die Ergebnisse, dass Ereignisse mit hoher Recall-Rate, geringer Latenz und präziser Zeitabschätzung erkannt werden können. Der Kompromiss besteht in einer leicht geringeren Präzision im Vergleich zum aktuellen Stand der Technik, welcher jedoch höhere Latenz aufweist und bei akzeptierbar geringerer Zeitgenauigkeit bessere Ergebnisse liefert. Zusätzlich zur vorgestellten Methode führen wir eine umfassende Ablationsstudie durch, um die Auswirkungen der verschiedenen Komponenten des Trainingspipelines auf das Endresultat zu analysieren.