ResNeSt: Split-Attention-Netzwerke

Es ist gut bekannt, dass Featuremap-Attention und Multi-Path-Darstellung für die visuelle Erkennung von großer Bedeutung sind. In diesem Artikel präsentieren wir eine modularisierte Architektur, die die kanalweise Aufmerksamkeit auf verschiedene Netzwerkzweige anwendet, um deren Erfolg bei der Erfassung von Interaktionen zwischen Features und der Lernung vielfältiger Darstellungen zu nutzen. Unser Entwurf führt zu einem einfachen und einheitlichen Berechnungsblock, der mit nur wenigen Parametern parametrisierbar ist. Unser Modell, benannt ResNeSt, erreicht auf dem Gebiet der Bildklassifikation eine bessere Balance zwischen Genauigkeit und Latenz als EfficientNet. Zudem erzielt ResNeSt hervorragende Ergebnisse im Transferlernen auf mehreren öffentlichen Benchmarks als Backbone-Modell und wurde von den Siegerbeiträgen der COCO-LVIS-Challenge übernommen. Der Quellcode für das vollständige System sowie vortrainierte Modelle sind öffentlich verfügbar.