CoAtNet: Die Verbindung von Convolution und Attention für alle Datengrößen

Transformers haben in der Computer Vision zunehmend Interesse geweckt, bleiben jedoch hinter den aktuellen state-of-the-art-Faltungsnetzwerken zurück. In dieser Arbeit zeigen wir, dass Transformer zwar tendenziell eine größere Modellkapazität aufweisen, ihre Generalisierung jedoch aufgrund des Fehlens der richtigen induktiven Bias schlechter sein kann im Vergleich zu Faltungsnetzwerken. Um die Stärken beider Architekturen effektiv zu kombinieren, stellen wir CoAtNets (ausgesprochen „coat“ nets) vor – eine Familie hybrider Modelle, die auf zwei zentralen Erkenntnissen beruhen: (1) Tiefenweise Faltung und Self-Attention können über eine einfache relative Aufmerksamkeit natürlicherweise vereint werden; (2) die vertikale Stapelung von Faltungs- und Aufmerksamkeitslagen auf eine sinnvolle Weise erweist sich überraschend effektiv bei der Verbesserung der Generalisierung, Kapazität und Effizienz. Experimente zeigen, dass unsere CoAtNets unter verschiedenen Ressourcenbeschränkungen auf verschiedenen Datensätzen state-of-the-art-Leistungen erzielen: Ohne zusätzliche Daten erreicht CoAtNet eine Top-1-Accuracy von 86,0 % auf ImageNet; Bei Vortrainierung mit 13 Mio. Bildern aus ImageNet-21K erreicht unser CoAtNet eine Top-1-Accuracy von 88,56 % – vergleichbar mit ViT-huge, das mit 300 Mio. Bildern aus JFT-300M vortrainiert wurde, wobei jedoch 23-mal weniger Daten verwendet werden; Besonders hervorzuheben ist, dass CoAtNet bei weiterer Skalierung mit JFT-3B eine Top-1-Accuracy von 90,88 % auf ImageNet erreicht, was eine neue state-of-the-art-Leistung darstellt.