HyperAIHyperAI
il y a 17 jours

CoAtNet : Marier la convolution et l'attention pour toutes les tailles de données

Zihang Dai, Hanxiao Liu, Quoc V. Le, Mingxing Tan
CoAtNet : Marier la convolution et l'attention pour toutes les tailles de données
Résumé

Les Transformers ont suscité un intérêt croissant en vision par ordinateur, mais ils peinent encore à atteindre les performances des réseaux convolutionnels de pointe. Dans ce travail, nous montrons que bien que les Transformers aient généralement une capacité de modèle plus importante, leur généralisation peut être inférieure à celle des réseaux convolutionnels en raison du manque d’une bonne biais inductif. Pour combiner efficacement les forces des deux architectures, nous proposons CoAtNets (prononcé « coat » nets), une famille de modèles hybrides fondée sur deux idées clés : (1) les convolutions depthwise et l’attention auto peuvent être naturellement unifiées via une attention relative simple ; (2) empiler verticalement des couches de convolution et des couches d’attention selon une approche structurée s’avère étonnamment efficace pour améliorer la généralisation, la capacité et l’efficacité. Les expériences montrent que nos CoAtNets atteignent des performances de pointe sous diverses contraintes de ressources sur plusieurs jeux de données : sans données supplémentaires, CoAtNet atteint 86,0 % de précision top-1 sur ImageNet ; lorsqu’il est pré-entraîné sur 13 millions d’images provenant d’ImageNet-21K, notre modèle atteint 88,56 % de précision top-1, égalant ainsi le ViT-huge pré-entraîné sur 300 millions d’images issues de JFT-300M, tout en utilisant 23 fois moins de données ; de façon notable, en élargissant davantage CoAtNet à l’aide de JFT-3B, nous atteignons 90,88 % de précision top-1 sur ImageNet, établissant ainsi un nouveau record mondial.