HyperAIHyperAI

Command Palette

Search for a command to run...

Bottleneck-Transformers für die visuelle Erkennung

Aravind Srinivas Tsung-Yi Lin Niki Parmar Jonathon Shlens Pieter Abbeel Ashish Vaswani

Zusammenfassung

Wir stellen BoTNet vor, eine konzeptionell einfache aber leistungsstarke Backbone-Architektur, die selbst-Attention für mehrere Aufgaben im Bereich des maschinellen Sehens einschließlich Bildklassifikation, Objektdetektion und Instanzsegmentierung integriert. Indem wir lediglich die räumlichen Faltungen in den letzten drei Bottleneck-Blöcken eines ResNet durch globale Selbst-Attention ersetzen – ohne weitere Änderungen –, erreicht unser Ansatz signifikante Verbesserungen gegenüber den Baselines bei der Instanzsegmentierung und Objektdetektion, wobei gleichzeitig die Anzahl der Parameter reduziert und die Latenz nur minimal ansteigt. Durch die Gestaltung von BoTNet weisen wir zudem darauf hin, wie ResNet-Bottleneck-Blöcke mit Selbst-Attention als Transformer-Blöcke interpretiert werden können. Ohne zusätzliche Komplexitäten erreicht BoTNet auf der COCO-Instanzsegmentierungsbenchmarke mit dem Mask R-CNN-Framework 44,4 % Mask AP und 49,7 % Box AP – und übertrifft damit die bisher besten veröffentlichten Einzelmodell- und Einzelskalenergebnisse von ResNeSt, die auf dem COCO-Validierungssatz evaluiert wurden. Schließlich präsentieren wir eine einfache Anpassung des BoTNet-Entwurfs für die Bildklassifikation, wodurch Modelle entstehen, die eine starke Leistung von 84,7 % Top-1-Accuracy auf der ImageNet-Benchmarke erzielen und dabei bis zu 1,64-mal schneller in Bezug auf die Berechnungszeit sind als die gängigen EfficientNet-Modelle auf TPU-v3-Hardware. Wir hoffen, dass unser einfacher und effektiver Ansatz als robuster Ausgangspunkt für zukünftige Forschung zu Selbst-Attention-Modellen im Bereich der visuellen Wahrnehmung dienen wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Bottleneck-Transformers für die visuelle Erkennung | Paper | HyperAI