AM Flow : Adaptateurs pour le traitement temporel dans la reconnaissance d'actions

Les modèles d'apprentissage profond, en particulier les modèles d'\textit{images}, ont récemment gagné en généralisation et en robustesse. Dans ce travail, nous proposons d'exploiter ces avancées dans le domaine de la \textit{classification vidéo}. Les modèles fondamentaux vidéo souffrent de l'exigence d'un préentraînement intensif et d'un temps de formation important. Pour atténuer ces limitations, nous proposons la méthode "\textit{Flux de Cartes d'Attention (AM Flow)}" pour les modèles d'images, une technique permettant d'identifier les pixels pertinents au mouvement dans chaque image vidéo entrante. Dans ce cadre, nous présentons deux méthodes pour calculer le flux AM, en fonction du mouvement de la caméra. Le flux AM permet la séparation du traitement spatial et temporel, tout en offrant des résultats améliorés par rapport au traitement spatio-temporel combiné (comme dans les modèles vidéo). Les adaptateurs, l'une des techniques populaires pour le transfert d'apprentissage efficace en termes de paramètres, facilitent l'intégration du flux AM dans des modèles d'images préentraînés, atténuant ainsi la nécessité d'un réajustement complet. Nous étendons les adaptateurs aux "\textit{adaptateurs de traitement temporel}" en intégrant une unité de traitement temporel dans les adaptateurs. Notre travail atteint une convergence plus rapide, réduisant ainsi le nombre d'époques nécessaires pour l'entraînement. De plus, nous dotons un modèle d'image de la capacité d'obtenir des résultats à l'état de l'art sur des jeux de données populaires de reconnaissance d'actions. Cela réduit le temps d'entraînement et simplifie le préentraînement. Nous présentons des expériences sur les jeux de données Kinetics-400, Something-Something v2 et Toyota Smarthome, mettant en évidence des résultats à l'état de l'art ou comparables.Note : - "Image" est traduit par \textit{images} car c'est un terme couramment utilisé en français.- "Video" est traduit par \textit{vidéo} pour la même raison.- "Action recognition datasets" est traduit par "jeux de données de reconnaissance d'actions", qui est une expression courante en français dans ce domaine.- Les noms propres tels que "Kinetics-400", "Something-Something v2" et "Toyota Smarthome" sont conservés tels quels car ils sont généralement utilisés sans traduction.