HyperAIHyperAI

Command Palette

Search for a command to run...

Échantillonnage auto-adaptatif pour une réponse efficace aux questions vidéo sur des modèles image-texte

Wei Han Hui Chen Min-Yen Kan Soujanya Poria

Résumé

La réponse aux questions à partir de vidéos constitue une tâche fondamentale dans le domaine de la compréhension vidéo. Bien que les modèles vision-langage (VLM) actuels équipés de Transformers vidéo permettent une modélisation temporelle et atteignent des résultats supérieurs, leur utilisation exige une puissance de calcul considérable, les rendant trop coûteux pour être déployés dans des scénarios d’application en temps réel. Une solution économique consiste à ne prélever qu’un petit sous-ensemble de cadres afin de représenter le contenu principal de la vidéo, puis à adapter un modèle image-texte sur ces cadres échantillonnés. Les modèles récents de compréhension vidéo échantillonnent généralement de manière aléatoire un ensemble de cadres ou de clips, sans tenir compte des corrélations internes entre leurs contenus visuels ni de leur pertinence par rapport à la question posée. Nous soutenons que ce type d’échantillonnage aveugle peut faire manquer des cadres clés dont la réponse correcte peut être déduite, et que cette situation s’aggrave lorsque la densité d’échantillonnage diminue, ce qui se produit fréquemment avec l’augmentation de la durée des vidéos. Pour atténuer ce problème, nous proposons deux stratégies d’échantillonnage de cadres, nommées respectivement « cadres les plus pertinents pour le domaine » (MDF, Most Domain Frames) et « cadres les plus implicites » (MIF, Most Implicated Frames), afin de préserver au maximum les cadres les plus susceptibles d’être essentiels à la question posée. La stratégie MDF minimise passivement le risque de manquer des cadres clés de manière itérative (bootstrap), tandis que la stratégie MIF recherche activement les cadres clés adaptés à chaque paire vidéo-question, avec l’aide de modèles auxiliaires. Les résultats expérimentaux obtenus sur trois jeux de données publics, avec trois VLM avancés (CLIP, GIT et All-in-one), démontrent que nos stratégies proposées améliorent significativement les performances des modèles pré-entraînés image-texte. Les codes sources relatifs à la méthode proposée dans cet article sont disponibles publiquement à l’adresse suivante : https://github.com/declare-lab/sas-vqa.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp