HyperAIHyperAI
il y a 16 jours

Test of Time : Inculquer aux modèles vidéo-langage une perception du temps

Piyush Bagad, Makarand Tapaswi, Cees G. M. Snoek
Test of Time : Inculquer aux modèles vidéo-langage une perception du temps
Résumé

La modélisation et la compréhension du temps constituent encore un défi majeur dans les modèles contemporains d’analyse vidéo. Alors que le langage émerge comme un moteur clé vers une généralisation puissante, il est essentiel que les modèles fondamentaux vidéo-langage développent une conscience du temps. Dans cet article, nous nous concentrons sur un aspect spécifique de la compréhension temporelle : la cohérence de l’ordre chronologique, telle qu’exprimée par les relations « avant/après ». Nous montrons que sept modèles vidéo-langage existants peinent à comprendre même des relations temporelles aussi simples. Nous nous posons ensuite la question de savoir s’il est réalisable d’ajouter une conscience temporelle à ces modèles fondamentaux sans les réentraîner entièrement depuis le début. À cette fin, nous proposons une méthode d’adaptation temporelle appliquée à l’un de ces modèles, VideoCLIP, basée sur une post-pré-entraînement sur une petite quantité de données vidéo-texte. Nous évaluons les modèles adaptés de manière zéro-shot sur six jeux de données, pour trois tâches downstream nécessitant des niveaux variés de conscience temporelle. Nous observons des améliorations encourageantes, particulièrement lorsque la tâche requiert une plus grande sensibilité au temps. Ce travail constitue une première étape vers l’exploration et l’instauration d’une conscience du temps dans les modèles vidéo-langage existants, sans avoir recours à un entraînement coûteux en données et en ressources informatiques depuis le départ.

Test of Time : Inculquer aux modèles vidéo-langage une perception du temps | Articles de recherche récents | HyperAI