HyperAIHyperAI
il y a 17 jours

MOAT : Une convolution mobile et une attention alternées permettent de concevoir des modèles visuels performants

Chenglin Yang, Siyuan Qiao, Qihang Yu, Xiaoding Yuan, Yukun Zhu, Alan Yuille, Hartwig Adam, Liang-Chieh Chen
MOAT : Une convolution mobile et une attention alternées permettent de concevoir des modèles visuels performants
Résumé

Cet article présente MOAT, une famille de réseaux neuronaux fondés sur la convolution mobile (c’est-à-dire des blocs résiduels inversés) et l’attention. Contrairement aux travaux actuels qui empilent séparément des blocs de convolution mobile et des blocs de transformateur, nous fusionnons efficacement ces deux composants dans un bloc MOAT. En partant d’un bloc Transformer classique, nous remplaçons son perceptron multicouche par un bloc de convolution mobile, puis réorganisons cet élément avant l’opération d’attention auto-attentive. Le bloc de convolution mobile renforce non seulement la capacité de représentation du réseau, mais produit également des caractéristiques découpées (downsampled) de meilleure qualité. Nos réseaux MOAT, conceptuellement simples, s’avèrent étonnamment efficaces, atteignant une précision top-1 de 89,1 % / 81,5 % sur ImageNet-1K / ImageNet-1K-V2 avec une pré-formation sur ImageNet22K. De plus, MOAT peut être appliqué de manière transparente à des tâches à faible résolution en convertissant simplement l’attention globale en attention par fenêtres. Grâce à la convolution mobile, qui échange efficacement les informations locales entre pixels (et donc entre fenêtres), MOAT n’a pas besoin du mécanisme supplémentaire de décalage de fenêtre. En conséquence, sur la tâche de détection d’objets COCO, MOAT atteint un AP de boîtes de 59,2 % avec 227 M paramètres (inférence à une seule échelle, et NMS rigide), tandis qu’en segmentation sémantique sur ADE20K, MOAT obtient un mIoU de 57,6 % avec 496 M paramètres (inférence à une seule échelle). Enfin, la famille tiny-MOAT, obtenue simplement en réduisant les tailles de canaux, surpasse étonnamment plusieurs modèles basés sur les transformateurs spécifiquement conçus pour les dispositifs mobiles sur ImageNet. La famille tiny-MOAT a également été évaluée sur des tâches en aval, servant de référence pour la communauté. Nous espérons que notre approche simple mais efficace, MOAT, inspirera davantage d’intégrations fluides entre convolution et attention auto-attentive. Le code est disponible publiquement.