il y a 11 jours

ActBERT : Apprentissage de représentations vidéo-texte globales-locales

Linchao Zhu, Yi Yang

Résumé

Dans cet article, nous présentons ActBERT, une méthode d’apprentissage auto-supervisé visant à apprendre des représentations conjointes vidéo-texte à partir de données non étiquetées. Premièrement, nous exploitons les informations globales sur les actions pour favoriser les interactions mutuelles entre les textes linguistiques et les objets régionaux locaux. Cette approche permet d’extraire des indices visuels à la fois globaux et locaux à partir de séquences vidéo appariées avec leurs descriptions textuelles, permettant ainsi un modélisation fine des relations entre la vision et le langage. Deuxièmement, nous introduisons un bloc ENtangled Transformer (ENT) conçu pour encoder trois sources d’information : les actions globales, les objets régionaux locaux et les descriptions linguistiques. Les correspondances entre les niveaux global et local sont établies grâce à une extraction stratégique d’indices à partir des informations contextuelles. Cette architecture impose aux représentations conjointes vidéo-texte de prendre en compte à la fois les objets à granularité fine et l’intention humaine globale. Nous évaluons la capacité de généralisation d’ActBERT sur plusieurs tâches vidéo-langage en aval, notamment la récupération de clips vidéo à partir de texte, la génération de légendes vidéo, la réponse à des questions sur vidéo, la segmentation d’actions et la localisation des étapes d’action. Les résultats montrent que ActBERT surpassent significativement les méthodes de l’état de l’art, démontrant ainsi son avantage dans l’apprentissage de représentations vidéo-texte.