HyperAIHyperAI

Command Palette

Search for a command to run...

EZ-CLIP : Reconnaissance efficace des actions vidéo sans apprentissage supervisé

Shahzad Ahmad; Sukalpa Chanda; Yogesh S Rawat

Résumé

Les récentes avancées dans l'entraînement préalable à grande échelle des modèles visuels-linguistiques sur des données d'images et de texte appariées ont démontré des capacités de généralisation impressionnantes pour les tâches à zéro exemple. S'appuyant sur ce succès, des efforts ont été déployés pour adapter ces modèles visuels-linguistiques basés sur des images, tels que CLIP, aux vidéos, en étendant leurs capacités à zéro exemple au domaine vidéo. Bien que ces adaptations aient montré des résultats prometteurs, elles entraînent un coût computationnel important et peinent à modéliser efficacement les aspects temporels cruciaux inhérents au domaine vidéo. Dans cette étude, nous présentons EZ-CLIP, une adaptation simple et efficace de CLIP qui répond à ces défis. EZ-CLIP utilise la stimulation visuelle temporelle pour une adaptation temporelle fluide, sans nécessiter de modifications fondamentales de l'architecture centrale de CLIP tout en conservant ses remarquables capacités de généralisation. De plus, nous introduisons un nouvel objectif d'apprentissage qui guide les stimulations visuelles temporelles à se concentrer sur la capture du mouvement, améliorant ainsi ses capacités d'apprentissage à partir de données vidéo. Nous avons mené des expériences approfondies sur cinq jeux de données différents, évaluant soigneusement EZ-CLIP pour l'apprentissage à zéro exemple et la reconnaissance d'actions vidéo de base à nouvelles, et démontrant également son potentiel pour la généralisation avec peu d'exemples. De manière impressionnante, avec seulement 5,2 millions de paramètres apprenables (contre 71,1 millions dans le meilleur modèle précédent), EZ-CLIP peut être entraîné efficacement sur une seule GPU, surpassant les approches existantes dans plusieurs évaluations.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
EZ-CLIP : Reconnaissance efficace des actions vidéo sans apprentissage supervisé | Articles | HyperAI