HyperAIHyperAI
il y a 2 mois

ViLT : Transformateur Vision-Langue sans Convolution ni Supervision Régionale

Wonjae Kim; Bokyung Son; Ildoo Kim
ViLT : Transformateur Vision-Langue sans Convolution ni Supervision Régionale
Résumé

Le pré-entraînement Vision-et-Langage (VLP) a amélioré les performances sur diverses tâches en aval combinant vision et langage. Les approches actuelles du VLP s'appuient fortement sur des processus d'extraction de caractéristiques d'images, la plupart impliquant une supervision par région (par exemple, détection d'objets) et une architecture convolutive (par exemple, ResNet). Bien que négligés dans la littérature, nous trouvons ces processus problématiques en termes de (1) efficacité/vitesse, car l'extraction simple des caractéristiques d'entrée nécessite beaucoup plus de calcul que les étapes d'interaction multimodale ; et (2) puissance expressive, car elle est limitée à la puissance expressive de l'encodeur visuel et à son vocabulaire visuel prédéfini. Dans cet article, nous présentons un modèle VLP minimal, le Vision-and-Language Transformer (ViLT), qui simplifie considérablement le traitement des entrées visuelles de manière monolithique, sans utiliser de convolution, tout comme nous traitons les entrées textuelles. Nous montrons que ViLT est jusqu'à plusieurs fois plus rapide que les modèles VLP précédents, tout en offrant des performances compétitives ou supérieures pour les tâches en aval. Notre code source et nos poids pré-entraînés sont disponibles sur https://github.com/dandelin/vilt.

ViLT : Transformateur Vision-Langue sans Convolution ni Supervision Régionale | Articles de recherche récents | HyperAI