HyperAIHyperAI

Command Palette

Search for a command to run...

Tout-en-un : Exploration de la pré-formation unifiée vidéo-langage

Alex Jinpeng Wang Yixiao Ge Rui Yan Yuying Ge Xudong Lin Guanyu Cai Jianping Wu Ying Shan Xiaohu Qie Mike Zheng Shou

Résumé

Les modèles pré-entraînés de type vidéo-langage courants \cite{actbert,clipbert,violet} se composent de trois composants : un encodeur vidéo, un encodeur textuel et une transformation de fusion vidéo-langage. Ils visent à améliorer les performances en utilisant des encodeurs unimodaux plus lourds ou des transformateurs de fusion multimodaux plus complexes, ce qui entraîne une augmentation du nombre de paramètres et une efficacité réduite dans les tâches en aval. Dans ce travail, nous introduisons pour la première fois un modèle vidéo-langage end-to-end, nommé \textit{all-in-one Transformer}, qui encode les signaux bruts vidéo et textuels en représentations conjointes à l’aide d’une architecture centrale unifiée. Nous soutenons que l’information temporelle unique des données vidéo constitue une barrière clé empêchant la conception d’un transformateur agnostique aux modalités. Pour surmonter ce défi, nous proposons une nouvelle opération efficace de « rolling de tokens » qui encode les représentations temporelles à partir de segments vidéo de manière non-paramétrique. Ce design soigneux permet d’apprendre des représentations à la fois pour des entrées multimodales vidéo-texte et pour des entrées unimodales, via un même modèle principal. Notre modèle pré-entraîné \textit{all-in-one Transformer} est transféré vers diverses tâches vidéo-langage en aval après une phase de fine-tuning, notamment la recherche vidéo-texte, la réponse à question sur vidéo, les questions à choix multiples et le raisonnement visuel du sens commun. Les résultats de pointe obtenus avec un nombre minimal de FLOPs (opérations flottantes) sur neuf jeux de données démontrent clairement l’efficacité de notre méthode par rapport aux approches concurrentes. Le code source et le modèle pré-entraîné sont disponibles à l’adresse suivante : https://github.com/showlab/all-in-one.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Tout-en-un : Exploration de la pré-formation unifiée vidéo-langage | Articles | HyperAI