il y a 4 mois

EZ-CLIP : Reconnaissance efficace des actions vidéo sans apprentissage supervisé

Shahzad Ahmad; Sukalpa Chanda; Yogesh S Rawat

Résumé

Les récentes avancées dans l'entraînement préalable à grande échelle des modèles visuels-linguistiques sur des données d'images et de texte appariées ont démontré des capacités de généralisation impressionnantes pour les tâches à zéro exemple. S'appuyant sur ce succès, des efforts ont été déployés pour adapter ces modèles visuels-linguistiques basés sur des images, tels que CLIP, aux vidéos, en étendant leurs capacités à zéro exemple au domaine vidéo. Bien que ces adaptations aient montré des résultats prometteurs, elles entraînent un coût computationnel important et peinent à modéliser efficacement les aspects temporels cruciaux inhérents au domaine vidéo. Dans cette étude, nous présentons EZ-CLIP, une adaptation simple et efficace de CLIP qui répond à ces défis. EZ-CLIP utilise la stimulation visuelle temporelle pour une adaptation temporelle fluide, sans nécessiter de modifications fondamentales de l'architecture centrale de CLIP tout en conservant ses remarquables capacités de généralisation. De plus, nous introduisons un nouvel objectif d'apprentissage qui guide les stimulations visuelles temporelles à se concentrer sur la capture du mouvement, améliorant ainsi ses capacités d'apprentissage à partir de données vidéo. Nous avons mené des expériences approfondies sur cinq jeux de données différents, évaluant soigneusement EZ-CLIP pour l'apprentissage à zéro exemple et la reconnaissance d'actions vidéo de base à nouvelles, et démontrant également son potentiel pour la généralisation avec peu d'exemples. De manière impressionnante, avec seulement 5,2 millions de paramètres apprenables (contre 71,1 millions dans le meilleur modèle précédent), EZ-CLIP peut être entraîné efficacement sur une seule GPU, surpassant les approches existantes dans plusieurs évaluations.