Apprentissage mutuel de modalités pour la classification d’actions vidéo

La construction de modèles pour la classification d’actions vidéo progresse rapidement. Toutefois, les performances de ces modèles peuvent encore être facilement améliorées par l’ensemblage de modèles identiques entraînés sur différentes modalités (par exemple, le flux optique). Malheureusement, l’utilisation de plusieurs modalités pendant l’inférence s’avère coûteuse en termes de ressources computationnelles. Des travaux récents ont exploré des moyens d’intégrer les avantages de la multi-modalité dans un seul modèle basé sur les images RGB. Pourtant, des améliorations restent possibles. Dans cet article, nous étudions diverses méthodes pour intégrer le pouvoir d’ensemblage dans un seul modèle. Nous démontrons que l’initialisation appropriée, ainsi que l’apprentissage mutuel entre modalités, permettent d’améliorer significativement les modèles mono-modalités. En conséquence, nous obtenons des résultats de pointe sur le benchmark Something-Something-v2.