HyperAIHyperAI

Command Palette

Search for a command to run...

ViLT : Transformateur Vision-Langue sans Convolution ni Supervision Régionale

Wonjae Kim; Bokyung Son; Ildoo Kim

Résumé

Le pré-entraînement Vision-et-Langage (VLP) a amélioré les performances sur diverses tâches en aval combinant vision et langage. Les approches actuelles du VLP s'appuient fortement sur des processus d'extraction de caractéristiques d'images, la plupart impliquant une supervision par région (par exemple, détection d'objets) et une architecture convolutive (par exemple, ResNet). Bien que négligés dans la littérature, nous trouvons ces processus problématiques en termes de (1) efficacité/vitesse, car l'extraction simple des caractéristiques d'entrée nécessite beaucoup plus de calcul que les étapes d'interaction multimodale ; et (2) puissance expressive, car elle est limitée à la puissance expressive de l'encodeur visuel et à son vocabulaire visuel prédéfini. Dans cet article, nous présentons un modèle VLP minimal, le Vision-and-Language Transformer (ViLT), qui simplifie considérablement le traitement des entrées visuelles de manière monolithique, sans utiliser de convolution, tout comme nous traitons les entrées textuelles. Nous montrons que ViLT est jusqu'à plusieurs fois plus rapide que les modèles VLP précédents, tout en offrant des performances compétitives ou supérieures pour les tâches en aval. Notre code source et nos poids pré-entraînés sont disponibles sur https://github.com/dandelin/vilt.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ViLT : Transformateur Vision-Langue sans Convolution ni Supervision Régionale | Articles | HyperAI