Command Palette
Search for a command to run...
Wave-ViT : Unification des ondelettes et des Transformers pour l'apprentissage de représentations visuelles
Wave-ViT : Unification des ondelettes et des Transformers pour l'apprentissage de représentations visuelles
Ting Yao Yingwei Pan Yehao Li Chong-Wah Ngo Tao Mei
Résumé
Le Vision Transformer (ViT) à multiples échelles est devenu un modèle fondamental puissant pour les tâches de vision par ordinateur, toutefois le calcul de l’attention auto-associative dans les Transformers présente une complexité quadratique par rapport au nombre de patches d’entrée. Ainsi, les solutions existantes recourent fréquemment à des opérations de réduction d’échelle (par exemple, le pooling moyen) appliquées aux clés/valeurs afin de réduire drastiquement le coût computationnel. Dans ce travail, nous affirmons que ce type de conception de réduction d’échelle trop agressive n’est pas inversible et entraîne inévitablement une perte d’information, particulièrement pour les composantes à haute fréquence présentes dans les objets (par exemple, les détails de texture). Inspirés par la théorie des ondelettes, nous proposons un nouveau modèle, le Wavelet Vision Transformer (\textbf{Wave-ViT}), qui formule de manière unifiée la réduction d’échelle inversible à l’aide de transformations d’ondelettes et l’apprentissage par attention auto-associative. Cette approche permet un apprentissage par attention auto-associative avec une réduction d’échelle sans perte sur les clés/valeurs, favorisant ainsi un meilleur compromis entre efficacité et précision. En outre, les transformations d’ondelettes inverses sont exploitées pour renforcer les sorties de l’attention en agrégeant des contextes locaux avec un champ réceptif élargi. Nous validons l’efficacité supérieure de Wave-ViT à travers des expérimentations étendues sur plusieurs tâches de vision (par exemple, reconnaissance d’images, détection d’objets, segmentation d’instances). Ses performances dépassent celles des meilleurs modèles ViT existants, tout en restant comparables en termes de nombre d’opérations flottantes (FLOPs). Le code source est disponible à l’adresse suivante : \url{https://github.com/YehLi/ImageNetModel}.