Bottleneck-Transformers für die visuelle Erkennung

Wir stellen BoTNet vor, eine konzeptionell einfache aber leistungsstarke Backbone-Architektur, die selbst-Attention für mehrere Aufgaben im Bereich des maschinellen Sehens einschließlich Bildklassifikation, Objektdetektion und Instanzsegmentierung integriert. Indem wir lediglich die räumlichen Faltungen in den letzten drei Bottleneck-Blöcken eines ResNet durch globale Selbst-Attention ersetzen – ohne weitere Änderungen –, erreicht unser Ansatz signifikante Verbesserungen gegenüber den Baselines bei der Instanzsegmentierung und Objektdetektion, wobei gleichzeitig die Anzahl der Parameter reduziert und die Latenz nur minimal ansteigt. Durch die Gestaltung von BoTNet weisen wir zudem darauf hin, wie ResNet-Bottleneck-Blöcke mit Selbst-Attention als Transformer-Blöcke interpretiert werden können. Ohne zusätzliche Komplexitäten erreicht BoTNet auf der COCO-Instanzsegmentierungsbenchmarke mit dem Mask R-CNN-Framework 44,4 % Mask AP und 49,7 % Box AP – und übertrifft damit die bisher besten veröffentlichten Einzelmodell- und Einzelskalenergebnisse von ResNeSt, die auf dem COCO-Validierungssatz evaluiert wurden. Schließlich präsentieren wir eine einfache Anpassung des BoTNet-Entwurfs für die Bildklassifikation, wodurch Modelle entstehen, die eine starke Leistung von 84,7 % Top-1-Accuracy auf der ImageNet-Benchmarke erzielen und dabei bis zu 1,64-mal schneller in Bezug auf die Berechnungszeit sind als die gängigen EfficientNet-Modelle auf TPU-v3-Hardware. Wir hoffen, dass unser einfacher und effektiver Ansatz als robuster Ausgangspunkt für zukünftige Forschung zu Selbst-Attention-Modellen im Bereich der visuellen Wahrnehmung dienen wird.