COMEDIAN: Selbstüberwachtes Lernen und Wissensdistillierung für die Aktionserkennung mit Transformers

Wir präsentieren COMEDIAN, einen neuen Pipeline zur Initialisierung von räumlich-zeitlichen Transformer-Modellen für die Aktionserkennung, der selbstüberwachtes Lernen und Wissensdistillierung umfasst. Die Aktionserkennung ist eine Aufgabe der zeitlichen Aktionserkennung auf Timestamp-Ebene. Unser Pipeline besteht aus drei Schritten mit zwei Initialisierungsphasen. Zunächst führen wir eine selbstüberwachte Initialisierung eines räumlichen Transformers durch, wobei kurze Videos als Eingabe verwendet werden. Zusätzlich initialisieren wir einen zeitlichen Transformer, der die Ausgaben des räumlichen Transformers durch Wissensdistillierung aus einer vorberechneten Featurebank, die mit jedem kurzen Videosegment ausgerichtet ist, mit globalen Kontext erweitert. Im letzten Schritt feinjustieren wir die Transformer-Modelle an die Aktionserkennungsaufgabe. Die Experimente, die auf dem SoccerNet-v2-Datensatz durchgeführt wurden, zeigen Spitzenleistungen und bestätigen die Effektivität des Vortrainingsparadigmas von COMEDIAN. Unsere Ergebnisse unterstreichen mehrere Vorteile unseres Vortrainingspipelines, darunter eine verbesserte Leistung und eine schnellere Konvergenz im Vergleich zu nicht vortrainierten Modellen.