Verbesserung der Erkennung von Fußballaktionen durch die Verwendung von Audio- und Videostreams

In dieser Arbeit schlagen wir eine Studie zur multimodalen (Audio und Video) Aktionserkennung und -klassifizierung in Fußballvideos vor. Die Aktionserkennung und -klassifizierung sind Aufgaben, die darin bestehen, die zeitlichen Ankerpunkte von Ereignissen in einem Video zu finden und zu bestimmen, um welche Ereignisse es sich handelt. Dies ist eine wichtige Anwendung der allgemeinen Aktivitätsanalyse. Hierbei schlagen wir eine experimentelle Studie vor, bei der Audio- und Videoinformationen auf verschiedenen Stufen tiefer neuronaler Netzarchitekturen kombiniert werden. Wir nutzten das SoccerNet Benchmark-Datensatz, der annotierte Ereignisse für 500 Fußballspiele aus den fünf großen europäischen Ligen enthält. In dieser Arbeit evaluierten wir verschiedene Methoden zur Integration des Audiostreams in rein video-basierte Architekturen. Wir beobachteten durchschnittliche absolute Verbesserungen des Metriks mean Average Precision (mAP) von $7{,}43\,\%$ für die Aktionklassifizierungsaufgabe und von $4{,}19\,\%$ für die Aktionserkennungsaufgabe.