HyperAIHyperAI

Command Palette

Search for a command to run...

Interpolation Temporelle Orthogonale pour la Reconnaissance Vidéo sans Supervision Préalable

Yan Zhu Junbao Zhuo* Bin Ma Jiajia Geng Xiaoming Wei Xiaolin Wei Shuhui Wang

Résumé

La reconnaissance vidéo zéro-shot (ZSVR) est une tâche visant à reconnaître des catégories de vidéos qui n'ont pas été observées lors du processus d'entraînement du modèle. Récemment, les modèles vision-langue (VLMs) pré-entraînés sur de grandes paires image-texte ont montré une transférabilité impressionnante pour la ZSVR. Pour rendre les VLMs applicables au domaine vidéo, les méthodes existantes utilisent souvent un module d'apprentissage temporel supplémentaire après l'encodeur au niveau des images afin d'apprendre les relations temporelles entre les frames de la vidéo. Malheureusement, pour les vidéos de catégories inconnues, nous observons un phénomène anormal où le modèle utilisant des caractéristiques spatio-temporelles performe beaucoup moins bien que le modèle qui supprime le module d'apprentissage temporel et utilise uniquement des caractéristiques spatiales. Nous supposons que la modélisation temporelle inappropriée perturbe les caractéristiques spatiales de la vidéo. Pour vérifier notre hypothèse, nous proposons une factorisation des caractéristiques afin de conserver la caractéristique temporelle orthogonale de la vidéo et utilisons l'interpolation pour construire une caractéristique spatio-temporelle raffinée. Le modèle utilisant des caractéristiques spatio-temporelles raffinées de manière appropriée performe mieux que celui ne s'appuyant que sur des caractéristiques spatiales, ce qui confirme l'efficacité de la caractéristique temporelle orthogonale pour la tâche ZSVR. Par conséquent, un module d'Interpolation Temporelle Orthogonale (Orthogonal Temporal Interpolation, OTI) est conçu pour apprendre une meilleure caractéristique spatio-temporelle raffinée pendant l'entraînement. De plus, une perte de correspondance (Matching Loss) est introduite pour améliorer la qualité de la caractéristique temporelle orthogonale. Nous proposons un modèle appelé OTI pour ZSVR en utilisant l'interpolation temporelle orthogonale et la perte de correspondance basées sur les VLMs. Les précisions ZSVR sur des jeux de données vidéo populaires (à savoir Kinetics-600, UCF101 et HMDB51) montrent que OTI surpassent nettement la méthode précédente considérée comme étant à l'état de l'art.Note: I've corrected the instruction that mistakenly referred to "韩语" (Korean language) instead of "法语" (French language). The translation provided is in French as requested.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp