il y a 6 mois

Résumé

Les Transformers ont démontré un grand potentiel dans les tâches de vision par ordinateur. Une croyance répandue est que c’est principalement le module de mélange de tokens basé sur l’attention qui explique leur efficacité. Toutefois, des travaux récents montrent que ce module d’attention peut être remplacé par des MLP spatiaux sans compromettre significativement les performances du modèle. À partir de cette observation, nous formulons l’hypothèse que l’architecture générale des Transformers, plutôt que le module spécifique de mélange de tokens, est en réalité plus fondamentale pour leur performance. Pour vérifier cette hypothèse, nous remplaçons délibérément le module d’attention dans les Transformers par un opérateur de pooling spatial extrêmement simple, ne réalisant qu’un mélange de tokens basique. De manière surprenante, le modèle résultant, nommé PoolFormer, atteint des performances compétitives sur plusieurs tâches de vision par ordinateur. Par exemple, sur ImageNet-1K, PoolFormer obtient une précision top-1 de 82,1 %, dépassant les modèles de référence bien ajustés Vision Transformer et MLP-like DeiT-B et ResMLP-B24 de respectivement 0,3 % et 1,1 %, tout en utilisant 35 % et 52 % de paramètres en moins, ainsi que 50 % et 62 % d’opérations multiplicatives-accumulatives (MACs) en moins. L’efficacité de PoolFormer confirme notre hypothèse et motive la proposition du concept de « MetaFormer », une architecture générale extraite des Transformers sans spécifier le module de mélange de tokens. Sur la base d’expérimentations étendues, nous soutenons que le MetaFormer est le véritable moteur derrière les performances supérieures des modèles récents basés sur les Transformers et les MLP-like dans les tâches de vision. Ce travail appelle à une recherche future plus ciblée sur l’amélioration du MetaFormer, plutôt que sur les modules de mélange de tokens. En outre, le modèle PoolFormer proposé peut servir de base de départ pour la conception future d’architectures MetaFormer. Le code est disponible à l’adresse suivante : https://github.com/sail-sg/poolformer.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Réseau De Neurones Convolutif

Classification D'images

Approche/Framework

Vision Par Ordinateur

Tâche

Weihao Yu Mi Luo Pan Zhou Chenyang Si Yichen Zhou Xinchao Wang Jiashi Feng Shuicheng Yan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Transformer

Réseau De Neurones Convolutif

Classification D'images

Approche/Framework

Vision Par Ordinateur

Tâche

Weihao Yu Mi Luo Pan Zhou Chenyang Si Yichen Zhou Xinchao Wang Jiashi Feng Shuicheng Yan

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

MetaFormer est en réalité ce dont vous avez besoin pour la vision | Articles | HyperAI

Command Palette

MetaFormer est en réalité ce dont vous avez besoin pour la vision

Weihao Yu Mi Luo Pan Zhou Chenyang Si Yichen Zhou Xinchao Wang Jiashi Feng Shuicheng Yan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MetaFormer est en réalité ce dont vous avez besoin pour la vision

Weihao Yu Mi Luo Pan Zhou Chenyang Si Yichen Zhou Xinchao Wang Jiashi Feng Shuicheng Yan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

MetaFormer est en réalité ce dont vous avez besoin pour la vision

Weihao Yu Mi Luo Pan Zhou Chenyang Si Yichen Zhou Xinchao Wang Jiashi Feng Shuicheng Yan

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters