Apprentissage de représentations vidéo contrastives par perturbations adverses

Les perturbations adverses sont des motifs ressemblant au bruit qui peuvent subtilement modifier les données, tout en faisant échouer un classifieur autrement précis. Dans cet article, nous proposons d'utiliser de telles perturbations dans un cadre novateur d'apprentissage par contraste pour construire des échantillons négatifs, qui seront ensuite utilisés pour produire des représentations vidéo améliorées. À cette fin, étant donné un modèle profond bien entraîné pour la reconnaissance vidéo frame par frame, nous générons d'abord du bruit adverse adapté à ce modèle. Des sacs positifs et négatifs sont produits à partir des caractéristiques originales de l'ensemble de la séquence vidéo et de leurs versions perturbées, respectivement. Contrairement aux méthodes classiques d'apprentissage par contraste, nous développons un problème de classification binaire qui apprend un ensemble d'hyperplans discriminants -- en tant qu'espace sous-jacent -- permettant de séparer les deux sacs l'un de l'autre. Cet espace sous-jacent est ensuite utilisé comme descripteur pour la vidéo, que nous appelons \emph{pooling d'espace sous-jacent discriminant}. Comme les caractéristiques perturbées appartiennent à des classes de données susceptibles d'être confondues avec les caractéristiques originales, l'espace sous-jacent discriminant caractérisera les parties de l'espace des caractéristiques qui sont plus représentatives des données originales, et pourrait donc fournir des représentations vidéo robustes. Pour apprendre ces descripteurs, nous formulons un objectif d'apprentissage d'espace sur le variété de Stiefel et utilisons des méthodes d'optimisation riemannienne pour le résoudre efficacement. Nous fournissons des expériences sur plusieurs ensembles de données vidéo et démontrons des résultats à l'état de l'art.Note : - "Stiefel manifold" a été traduit par "variété de Stiefel", qui est le terme mathématique couramment utilisé en français.- "Riemannian optimization methods" a été traduit par "méthodes d'optimisation riemannienne", également le terme standard en français dans ce domaine.