il y a 2 mois

Interpolation Temporelle Orthogonale pour la Reconnaissance Vidéo sans Supervision Préalable

Yan Zhu; Junbao Zhuo; Bin Ma; Jiajia Geng; Xiaoming Wei; Xiaolin Wei; Shuhui Wang

Résumé

La reconnaissance vidéo zéro-shot (ZSVR) est une tâche visant à reconnaître des catégories de vidéos qui n'ont pas été observées lors du processus d'entraînement du modèle. Récemment, les modèles vision-langue (VLMs) pré-entraînés sur de grandes paires image-texte ont montré une transférabilité impressionnante pour la ZSVR. Pour rendre les VLMs applicables au domaine vidéo, les méthodes existantes utilisent souvent un module d'apprentissage temporel supplémentaire après l'encodeur au niveau des images afin d'apprendre les relations temporelles entre les frames de la vidéo. Malheureusement, pour les vidéos de catégories inconnues, nous observons un phénomène anormal où le modèle utilisant des caractéristiques spatio-temporelles performe beaucoup moins bien que le modèle qui supprime le module d'apprentissage temporel et utilise uniquement des caractéristiques spatiales. Nous supposons que la modélisation temporelle inappropriée perturbe les caractéristiques spatiales de la vidéo. Pour vérifier notre hypothèse, nous proposons une factorisation des caractéristiques afin de conserver la caractéristique temporelle orthogonale de la vidéo et utilisons l'interpolation pour construire une caractéristique spatio-temporelle raffinée. Le modèle utilisant des caractéristiques spatio-temporelles raffinées de manière appropriée performe mieux que celui ne s'appuyant que sur des caractéristiques spatiales, ce qui confirme l'efficacité de la caractéristique temporelle orthogonale pour la tâche ZSVR. Par conséquent, un module d'Interpolation Temporelle Orthogonale (Orthogonal Temporal Interpolation, OTI) est conçu pour apprendre une meilleure caractéristique spatio-temporelle raffinée pendant l'entraînement. De plus, une perte de correspondance (Matching Loss) est introduite pour améliorer la qualité de la caractéristique temporelle orthogonale. Nous proposons un modèle appelé OTI pour ZSVR en utilisant l'interpolation temporelle orthogonale et la perte de correspondance basées sur les VLMs. Les précisions ZSVR sur des jeux de données vidéo populaires (à savoir Kinetics-600, UCF101 et HMDB51) montrent que OTI surpassent nettement la méthode précédente considérée comme étant à l'état de l'art.Note: I've corrected the instruction that mistakenly referred to "韩语" (Korean language) instead of "法语" (French language). The translation provided is in French as requested.