HyperAIHyperAI

Command Palette

Search for a command to run...

Wave-ViT : Unification des ondelettes et des Transformers pour l'apprentissage de représentations visuelles

Ting Yao Yingwei Pan Yehao Li Chong-Wah Ngo Tao Mei

Résumé

Le Vision Transformer (ViT) à multiples échelles est devenu un modèle fondamental puissant pour les tâches de vision par ordinateur, toutefois le calcul de l’attention auto-associative dans les Transformers présente une complexité quadratique par rapport au nombre de patches d’entrée. Ainsi, les solutions existantes recourent fréquemment à des opérations de réduction d’échelle (par exemple, le pooling moyen) appliquées aux clés/valeurs afin de réduire drastiquement le coût computationnel. Dans ce travail, nous affirmons que ce type de conception de réduction d’échelle trop agressive n’est pas inversible et entraîne inévitablement une perte d’information, particulièrement pour les composantes à haute fréquence présentes dans les objets (par exemple, les détails de texture). Inspirés par la théorie des ondelettes, nous proposons un nouveau modèle, le Wavelet Vision Transformer (\textbf{Wave-ViT}), qui formule de manière unifiée la réduction d’échelle inversible à l’aide de transformations d’ondelettes et l’apprentissage par attention auto-associative. Cette approche permet un apprentissage par attention auto-associative avec une réduction d’échelle sans perte sur les clés/valeurs, favorisant ainsi un meilleur compromis entre efficacité et précision. En outre, les transformations d’ondelettes inverses sont exploitées pour renforcer les sorties de l’attention en agrégeant des contextes locaux avec un champ réceptif élargi. Nous validons l’efficacité supérieure de Wave-ViT à travers des expérimentations étendues sur plusieurs tâches de vision (par exemple, reconnaissance d’images, détection d’objets, segmentation d’instances). Ses performances dépassent celles des meilleurs modèles ViT existants, tout en restant comparables en termes de nombre d’opérations flottantes (FLOPs). Le code source est disponible à l’adresse suivante : \url{https://github.com/YehLi/ImageNetModel}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp