HyperAIHyperAI

Command Palette

Search for a command to run...

Révéler le biais de cadre unique pour l'apprentissage vidéo-et-langue

Jie Lei Tamara L. Berg Mohit Bansal

Résumé

L'entraînement d'un modèle vidéo-langage efficace nécessite intuitivement plusieurs images comme entrées du modèle. Cependant, il n'est pas clair si l'utilisation de plusieurs images est bénéfique pour les tâches en aval, et si oui, si le gain de performance justifie les coûts de calcul et de mémoire considérablement augmentés résultant de l'utilisation d'un plus grand nombre d'images. Dans cette étude, nous explorons les modèles à une seule image pour l'apprentissage vidéo-langage. Sur un ensemble varié de tâches vidéo-langage (y compris la recherche texte-vidéo et la réponse aux questions sur des vidéos), nous montrons le résultat surprenant que, avec un entraînement préalable à grande échelle et une stratégie appropriée d'agrégation d'images au moment de l'inférence, un modèle entraîné sur une seule image qui ne prend pas en compte les informations temporelles peut atteindre des performances supérieures aux méthodes existantes utilisant plusieurs images pour l'entraînement. Ce résultat révèle l'existence d'un fort biais statique d'apparence dans les jeux de données vidéo-langage populaires. Par conséquent, afin de permettre une évaluation plus complète des modèles vidéo-langage, nous proposons deux nouvelles tâches de recherche basées sur des jeux de données existants de reconnaissance fine-grainée d'actions qui encouragent la modélisation temporelle. Notre code est disponible à l'adresse https://github.com/jayleicn/singularity


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp