Réponse à des questions vidéo zéro-shot à l'aide de programmes procéduraux

Nous proposons de répondre à des questions en mode zero-shot sur des vidéos en générant de courtes procédures informatiques qui dérivent une réponse finale en résolvant une séquence de sous-tâches visuelles. Nous introduisons Procedural Video Querying (ProViQ), une méthode qui utilise un modèle de langage massif pour générer ces procédures à partir d'une question d'entrée et d'une API de modules visuels intégrée dans le prompt, puis les exécute pour obtenir la sortie. Des approches procédurales similaires récentes se sont avérées efficaces pour la réponse aux questions sur des images, mais les vidéos restent un défi : nous dotons ProViQ de modules spécifiquement conçus pour la compréhension vidéo, ce qui lui permet de généraliser à une large variété de contenus vidéo. Ce cadre de génération de code permet également à ProViQ de réaliser d'autres tâches vidéo en plus de la réponse aux questions, telles que le suivi multi-objets ou des éditions vidéo basiques. ProViQ atteint des résultats de pointe sur une gamme diverse de benchmarks, avec des améliorations allant jusqu'à 25 % sur des jeux de données de questions-réponses vidéo courtes, longues, ouvertes et multimodales. La page de projet est disponible à l'adresse suivante : https://rccchoudhury.github.io/proviq2023.