HyperAIHyperAI

Command Palette

Search for a command to run...

ActBERT : Apprentissage de représentations vidéo-texte globales-locales

Linchao Zhu Yi Yang

Résumé

Dans cet article, nous présentons ActBERT, une méthode d’apprentissage auto-supervisé visant à apprendre des représentations conjointes vidéo-texte à partir de données non étiquetées. Premièrement, nous exploitons les informations globales sur les actions pour favoriser les interactions mutuelles entre les textes linguistiques et les objets régionaux locaux. Cette approche permet d’extraire des indices visuels à la fois globaux et locaux à partir de séquences vidéo appariées avec leurs descriptions textuelles, permettant ainsi un modélisation fine des relations entre la vision et le langage. Deuxièmement, nous introduisons un bloc ENtangled Transformer (ENT) conçu pour encoder trois sources d’information : les actions globales, les objets régionaux locaux et les descriptions linguistiques. Les correspondances entre les niveaux global et local sont établies grâce à une extraction stratégique d’indices à partir des informations contextuelles. Cette architecture impose aux représentations conjointes vidéo-texte de prendre en compte à la fois les objets à granularité fine et l’intention humaine globale. Nous évaluons la capacité de généralisation d’ActBERT sur plusieurs tâches vidéo-langage en aval, notamment la récupération de clips vidéo à partir de texte, la génération de légendes vidéo, la réponse à des questions sur vidéo, la segmentation d’actions et la localisation des étapes d’action. Les résultats montrent que ActBERT surpassent significativement les méthodes de l’état de l’art, démontrant ainsi son avantage dans l’apprentissage de représentations vidéo-texte.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp