HyperAIHyperAI

Command Palette

Search for a command to run...

Il faut casser quelques œufs pour faire une omelette : l’anticipation plausible d’actions à l’aide de grands modèles vidéo-langage

Himangi Mittal Nakul Agarwal Shao-Yuan Lo Kwonjoon Lee

Résumé

Nous introduisons PlausiVL, un grand modèle vidéo-langage conçu pour prédire des séquences d’actions plausibles dans le monde réel. Bien que des efforts considérables aient été fournis pour anticiper les actions futures, les approches antérieures n’ont pas pris en compte le critère de plausibilité au sein d’une séquence d’actions. Pour pallier cette limitation, nous explorons dans ce travail la capacité générative d’un grand modèle vidéo-langage, et développons par ailleurs une compréhension fine de la plausibilité dans une séquence d’actions en introduisant deux fonctions objectives : une perte d’apprentissage basée sur des scénarios contre-factuels pour des séquences d’actions plausibles, et une perte de répétition d’actions sur de longues périodes temporelles. Nous utilisons des contraintes logiques temporelles ainsi que des contraintes logiques sur les paires verbe-nom pour générer des séquences d’actions impossibles ou contre-factuelles, que nous employons ensuite pour entraîner le modèle via la perte d’apprentissage de séquences plausibles. Cette perte permet au modèle de distinguer clairement les séquences d’actions plausibles des non-plausibles, tout en aidant celui-ci à apprendre des indices temporels implicites essentiels à la tâche d’anticipation d’actions. La perte de répétition d’actions à long terme pénalise davantage les actions susceptibles de se répéter sur une fenêtre temporelle étendue. Grâce à cette pénalisation, le modèle parvient à générer des séquences d’actions à la fois diverses et plausibles. Nous évaluons notre approche sur deux grands jeux de données, Ego4D et EPIC-Kitchens-100, et démontrons des améliorations significatives sur la tâche d’anticipation d’actions.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp