Moins, c'est plus : ClipBERT pour l'apprentissage vidéo-langage par échantillonnage creux

L'approche classique d'apprentissage vidéo-langage (par exemple, la réponse à des questions sur des vidéos) impose à un modèle neuronal d'apprendre à partir de caractéristiques vidéo denses extraites hors ligne à partir de modèles visionnels et de caractéristiques textuelles issues de modèles linguistiques. Ces extracteurs de caractéristiques sont entraînés de manière indépendante, généralement sur des tâches différentes de celles du domaine cible, ce qui rend ces caractéristiques fixes sous-optimales pour les tâches ultérieures. En outre, en raison de la charge computationnelle élevée associée aux caractéristiques vidéo denses, il est souvent difficile (voire impossible) d'intégrer directement ces extracteurs dans les approches existantes afin de permettre un fine-tuning facile. Pour remédier à ce dilemme, nous proposons un cadre générique, ClipBERT, qui permet un apprentissage end-to-end abordable pour les tâches vidéo-langage, en utilisant un échantillonnage éparse : à chaque étape d'entraînement, seule une ou quelques courtes séquences échantillonnées de manière éparse d'une vidéo sont utilisées. Des expériences menées sur six jeux de données, dans les tâches de recherche texte-vidéo et de réponse à des questions sur des vidéos, montrent que ClipBERT surpassent (ou égalent) les méthodes existantes qui exploitent des vidéos entières, suggérant que l'apprentissage end-to-end basé sur quelques séquences échantillonnées de manière éparse est souvent plus précis que l'utilisation de caractéristiques denses extraites hors ligne à partir de vidéos entières, confirmant ainsi le principe du « moins, c'est plus ». Les vidéos des jeux de données proviennent de domaines et de durées très variés, allant de courtes vidéos GIF génériques de 3 secondes à des vidéos YouTube d'activités humaines de 180 secondes, démontrant ainsi la capacité de généralisation de notre approche. Des études d'ablation approfondies et des analyses rigoureuses sont fournies afin d'identifier les facteurs clés de ce succès. Notre code est disponible publiquement à l'adresse suivante : https://github.com/jayleicn/ClipBERT