Temporally-Aware Feature Pooling für die Aktionserkennung in Fußballübertragungen

Im Hinblick auf die automatische Produktion von Sportübertragungen besteht eine wichtige Aufgabe darin, die hochstufige semantische Information des laufenden Spiels zu verstehen. Zum Beispiel würde das Erkennen und Lokalisieren der wichtigsten Aktionen des Spiels es den Produzenten ermöglichen, die Übertragungsproduktion anzupassen und zu automatisieren, sich auf die entscheidenden Details des Spiels zu konzentrieren und die Zuschauerbindung zu maximieren. In dieser Arbeit konzentrieren wir uns auf die Aktionserkennung in Fußballübertragungen, die darin besteht, die Hauptaktionen in einem Fußballspiel zeitlich zu lokalisieren. Zu diesem Zweck schlagen wir eine neue Merkmalspooling-Methode vor, basierend auf NetVLAD, genannt NetVLAD++, die zeitbewusstes Wissen einbettet. Im Gegensatz zu früheren Pooling-Methoden, die den zeitlichen Kontext als einzelne Menge betrachten, aus der gepoolt wird, teilen wir den Kontext in den Zeitraum vor und nach dem Auftreten einer Aktion. Wir argumentieren, dass das Betrachten der kontextuellen Informationen um den Aktionsspot als einzelnes Objekt zu einem suboptimalen Lernen für das Pooling-Modul führt. Mit NetVLAD++ trennen wir den Kontext in Vergangenheits- und Zukunftsbilder und lernen spezifische Semantikvokabularien für jede Teilmenge, um solches Vokabular über die Zeit hinweg nicht zu vermischen und zu verwischen. Das Einbringen dieses Vorwissens führt zu informativeren Pooling-Modulen und diskriminativeren gepoolten Merkmalen, was wiederum eine bessere Verständnis der Aktionen ermöglicht. Wir trainieren und evaluieren unsere Methode anhand des jüngst veröffentlichten großen Datensatzes SoccerNet-v2 und erreichen einen durchschnittlichen mAP-Wert von 53,4 % für Aktionserkennung, was eine Verbesserung von +12,7 % gegenüber dem aktuellen Stand der Technik darstellt.