Wechselseitiges Modalitätenlernen für die Video-Aktionsklassifikation

Die Entwicklung von Modellen für die Video-Aktionsklassifikation schreitet rasant voran. Dennoch lässt sich die Leistung dieser Modelle durch Ensembling mit denselben Modellen, die auf unterschiedlichen Modalitäten (z. B. optischem Fluss) trainiert wurden, weiter verbessern. Leider ist die Nutzung mehrerer Modalitäten während der Inferenz rechenintensiv. In jüngsten Arbeiten wird untersucht, wie die Vorteile mehrerer Modalitäten in ein einziges RGB-Modell integriert werden können. Dennoch besteht weiterhin Verbesserungsbedarf. In diesem Paper untersuchen wir verschiedene Ansätze, um die Leistungsfähigkeit von Ensembles in ein einzelnes Modell einzubetten. Wir zeigen, dass eine geeignete Initialisierung sowie gegenseitiges Lernen zwischen Modalitäten die Leistung einzelner Modality-Modelle verbessert. Als Ergebnis erreichen wir state-of-the-art-Ergebnisse auf dem Something-Something-v2-Benchmark.