Apprentissage collaboratif de caractéristiques spatio-temporelles pour la reconnaissance d’actions vidéo

L'apprentissage des caractéristiques spatio-temporelles est fondamental pour la reconnaissance d'actions dans les vidéos. Les modèles actuels à réseaux de neurones profonds apprennent soit les caractéristiques spatiales et temporelles de manière indépendante (C2D), soit de manière conjointe avec des paramètres non contraints (C3D). Dans cet article, nous proposons une nouvelle opération neuronale qui encode les caractéristiques spatio-temporelles de manière collaborative en imposant une contrainte de partage de poids sur les paramètres apprenables. Plus précisément, nous appliquons une convolution 2D sur trois vues orthogonales des données vidéo volumétriques, permettant ainsi d'apprendre respectivement les indices d'apparence spatiale et de mouvement temporel. En partageant les noyaux de convolution entre les différentes vues, les caractéristiques spatiales et temporelles sont apprises de manière collaborative, s’aidant mutuellement. Les caractéristiques complémentaires sont ensuite fusionnées par une sommation pondérée dont les coefficients sont appris de manière end-to-end. Notre approche atteint des performances de pointe sur des benchmarks à grande échelle et a obtenu la première place au Moments in Time Challenge 2018. De plus, à partir des coefficients appris pour chaque vue, nous sommes en mesure de quantifier la contribution respective des caractéristiques spatiales et temporelles. Cette analyse éclaire la question de l'interprétabilité du modèle et pourrait également guider la conception future d'algorithmes pour la reconnaissance vidéo.