il y a 6 mois

Résumé

La modélisation et la compréhension du temps constituent encore un défi majeur dans les modèles contemporains d’analyse vidéo. Alors que le langage émerge comme un moteur clé vers une généralisation puissante, il est essentiel que les modèles fondamentaux vidéo-langage développent une conscience du temps. Dans cet article, nous nous concentrons sur un aspect spécifique de la compréhension temporelle : la cohérence de l’ordre chronologique, telle qu’exprimée par les relations « avant/après ». Nous montrons que sept modèles vidéo-langage existants peinent à comprendre même des relations temporelles aussi simples. Nous nous posons ensuite la question de savoir s’il est réalisable d’ajouter une conscience temporelle à ces modèles fondamentaux sans les réentraîner entièrement depuis le début. À cette fin, nous proposons une méthode d’adaptation temporelle appliquée à l’un de ces modèles, VideoCLIP, basée sur une post-pré-entraînement sur une petite quantité de données vidéo-texte. Nous évaluons les modèles adaptés de manière zéro-shot sur six jeux de données, pour trois tâches downstream nécessitant des niveaux variés de conscience temporelle. Nous observons des améliorations encourageantes, particulièrement lorsque la tâche requiert une plus grande sensibilité au temps. Ce travail constitue une première étape vers l’exploration et l’instauration d’une conscience du temps dans les modèles vidéo-langage existants, sans avoir recours à un entraînement coûteux en données et en ressources informatiques depuis le départ.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Vision Par Ordinateur

Tâche

Piyush Bagad Makarand Tapaswi Cees G. M. Snoek

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Vision Par Ordinateur

Tâche

Piyush Bagad Makarand Tapaswi Cees G. M. Snoek

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Test of Time : Inculquer aux modèles vidéo-langage une perception du temps

Piyush Bagad Makarand Tapaswi Cees G. M. Snoek

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Test of Time : Inculquer aux modèles vidéo-langage une perception du temps

Piyush Bagad Makarand Tapaswi Cees G. M. Snoek

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Test of Time : Inculquer aux modèles vidéo-langage une perception du temps

Piyush Bagad Makarand Tapaswi Cees G. M. Snoek

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters