HyperAIHyperAI

Command Palette

Search for a command to run...

MOAT: Alternierende mobile Faltung und Aufmerksamkeit schafft starke Vision-Modelle

Chenglin Yang Siyuan Qiao Qihang Yu Xiaoding Yuan Yukun Zhu Alan Yuille Hartwig Adam Liang-Chieh Chen

Zusammenfassung

Diese Arbeit präsentiert MOAT, eine Familie neuronaler Netzwerke, die auf Mobile-Convolution (d. h. invertierten Residual-Blöcken) und ATtention aufbauen. Im Gegensatz zu aktuellen Ansätzen, bei denen separate Mobile-Convolution- und Transformer-Blöcke hintereinander gestapelt werden, integrieren wir diese effizient in einen einheitlichen MOAT-Block. Ausgehend von einem standardmäßigen Transformer-Block ersetzen wir dessen Multi-Layer-Perceptron durch einen Mobile-Convolution-Block und ordnen diesen anschließend vor der Selbst-Attention-Operation neu an. Der Mobile-Convolution-Block erhöht nicht nur die Repräsentationskapazität des Netzwerks, sondern erzeugt zudem verbesserte abgetastete Merkmale. Unser konzeptionell einfacher MOAT-Ansatz erweist sich überraschend effektiv und erreicht eine Top-1-Accuracy von 89,1 % / 81,5 % auf ImageNet-1K / ImageNet-1K-V2 bei Vortrainierung auf ImageNet22K. Darüber hinaus lässt sich MOAT nahtlos auf nachgeschaltete Aufgaben mit großflächigen Eingaben anwenden, indem lediglich die globale Aufmerksamkeit in Fenster-Aufmerksamkeit umgewandelt wird. Aufgrund der Mobile-Convolution, die lokale Informationen effizient zwischen Pixeln (und somit auch zwischen Fenstern) austauscht, benötigt MOAT keine zusätzliche Fenster-Verschiebemechanik. Als Ergebnis erreicht MOAT auf der COCO-Objekterkennung eine Box-AP von 59,2 % bei 227 M Modellparametern (Einzelmaßstab-Inferenz und hard NMS) und auf der ADE20K-Semantischen Segmentierung eine mIoU von 57,6 % bei 496 M Modellparametern (Einzelmaßstab-Inferenz). Schließlich zeigt die tiny-MOAT-Familie, die durch einfache Reduzierung der Kanalanzahl entsteht, ebenfalls überraschend gute Leistung und übertrifft mehrere auf Mobile-Netzwerke spezialisierte transformerbasierte Modelle auf ImageNet. Die tiny-MOAT-Familie wurde zudem auf nachgeschalteten Aufgaben evaluiert und dient nun als Benchmark-Basis für die Gemeinschaft. Wir hoffen, dass unser einfacher, aber effektiver MOAT-Ansatz weitere nahtlose Integrationen von Faltungen und Selbst-Aufmerksamkeit anregt. Der Quellcode ist öffentlich verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp