HyperAIHyperAI

Command Palette

Search for a command to run...

Réponse à des questions vidéo zéro-shot à l'aide de programmes procéduraux

Rohan Choudhury Koichiro Niinuma Kris M. Kitani László A. Jeni

Résumé

Nous proposons de répondre à des questions en mode zero-shot sur des vidéos en générant de courtes procédures informatiques qui dérivent une réponse finale en résolvant une séquence de sous-tâches visuelles. Nous introduisons Procedural Video Querying (ProViQ), une méthode qui utilise un modèle de langage massif pour générer ces procédures à partir d'une question d'entrée et d'une API de modules visuels intégrée dans le prompt, puis les exécute pour obtenir la sortie. Des approches procédurales similaires récentes se sont avérées efficaces pour la réponse aux questions sur des images, mais les vidéos restent un défi : nous dotons ProViQ de modules spécifiquement conçus pour la compréhension vidéo, ce qui lui permet de généraliser à une large variété de contenus vidéo. Ce cadre de génération de code permet également à ProViQ de réaliser d'autres tâches vidéo en plus de la réponse aux questions, telles que le suivi multi-objets ou des éditions vidéo basiques. ProViQ atteint des résultats de pointe sur une gamme diverse de benchmarks, avec des améliorations allant jusqu'à 25 % sur des jeux de données de questions-réponses vidéo courtes, longues, ouvertes et multimodales. La page de projet est disponible à l'adresse suivante : https://rccchoudhury.github.io/proviq2023.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp