Il faut casser quelques œufs pour faire une omelette : l’anticipation plausible d’actions à l’aide de grands modèles vidéo-langage

Nous introduisons PlausiVL, un grand modèle vidéo-langage conçu pour prédire des séquences d’actions plausibles dans le monde réel. Bien que des efforts considérables aient été fournis pour anticiper les actions futures, les approches antérieures n’ont pas pris en compte le critère de plausibilité au sein d’une séquence d’actions. Pour pallier cette limitation, nous explorons dans ce travail la capacité générative d’un grand modèle vidéo-langage, et développons par ailleurs une compréhension fine de la plausibilité dans une séquence d’actions en introduisant deux fonctions objectives : une perte d’apprentissage basée sur des scénarios contre-factuels pour des séquences d’actions plausibles, et une perte de répétition d’actions sur de longues périodes temporelles. Nous utilisons des contraintes logiques temporelles ainsi que des contraintes logiques sur les paires verbe-nom pour générer des séquences d’actions impossibles ou contre-factuelles, que nous employons ensuite pour entraîner le modèle via la perte d’apprentissage de séquences plausibles. Cette perte permet au modèle de distinguer clairement les séquences d’actions plausibles des non-plausibles, tout en aidant celui-ci à apprendre des indices temporels implicites essentiels à la tâche d’anticipation d’actions. La perte de répétition d’actions à long terme pénalise davantage les actions susceptibles de se répéter sur une fenêtre temporelle étendue. Grâce à cette pénalisation, le modèle parvient à générer des séquences d’actions à la fois diverses et plausibles. Nous évaluons notre approche sur deux grands jeux de données, Ego4D et EPIC-Kitchens-100, et démontrons des améliorations significatives sur la tâche d’anticipation d’actions.