HyperAIHyperAI
il y a 11 jours

ViTAE : Vision Transformer améliorée par l'exploration de biais inductifs intrinsèques

Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao
ViTAE : Vision Transformer améliorée par l'exploration de biais inductifs intrinsèques
Résumé

Les Transformers ont démontré un grand potentiel dans diverses tâches de vision par ordinateur grâce à leur capacité forte à modéliser les dépendances à longue portée via le mécanisme d’attention auto-associative. Toutefois, les Transformers pour la vision traitent une image comme une séquence 1D de jetons visuels, ce qui leur fait défaut une biais d’induction (IB) intrinsèque pour modéliser les structures visuelles locales et gérer la variance d’échelle. En alternance, cela requiert des jeux de données d’entraînement à grande échelle et des durées d’entraînement prolongées afin d’apprendre ce biais d’induction de manière implicite. Dans ce travail, nous proposons un nouveau modèle Vision Transformer amélioré en explorant un biais d’induction intrinsèque issu des convolutions, nommé ViTAE. Techniquement, ViTAE intègre plusieurs modules de réduction pyramide spatiale pour sous-échantillonner et embarquer l’image d’entrée en jetons riches en contexte multi-échelle, en utilisant plusieurs opérations de convolution à différents taux de dilatation. Ainsi, il acquiert un biais d’induction intrinsèque d’invariance à l’échelle et est capable d’apprendre des représentations de caractéristiques robustes pour des objets à différentes échelles. En outre, dans chaque couche Transformer, ViTAE intègre un bloc de convolution en parallèle avec le module d’attention multi-têtes, dont les caractéristiques sont fusionnées avant d’être transmises au réseau feed-forward. Par conséquent, il possède un biais d’induction intrinsèque de localité et est en mesure d’apprendre simultanément les caractéristiques locales et les dépendances globales. Des expériences sur ImageNet ainsi que sur des tâches descendantes confirment l’infériorité de ViTAE par rapport aux modèles de base et aux travaux concurrents. Le code source et les modèles pré-entraînés seront disponibles sur GitHub.

ViTAE : Vision Transformer améliorée par l'exploration de biais inductifs intrinsèques | Articles de recherche récents | HyperAI