HyperAIHyperAI
vor 17 Tagen

MOAT: Alternierende mobile Faltung und Aufmerksamkeit schafft starke Vision-Modelle

Chenglin Yang, Siyuan Qiao, Qihang Yu, Xiaoding Yuan, Yukun Zhu, Alan Yuille, Hartwig Adam, Liang-Chieh Chen
MOAT: Alternierende mobile Faltung und Aufmerksamkeit schafft starke Vision-Modelle
Abstract

Diese Arbeit präsentiert MOAT, eine Familie neuronaler Netzwerke, die auf Mobile-Convolution (d. h. invertierten Residual-Blöcken) und ATtention aufbauen. Im Gegensatz zu aktuellen Ansätzen, bei denen separate Mobile-Convolution- und Transformer-Blöcke hintereinander gestapelt werden, integrieren wir diese effizient in einen einheitlichen MOAT-Block. Ausgehend von einem standardmäßigen Transformer-Block ersetzen wir dessen Multi-Layer-Perceptron durch einen Mobile-Convolution-Block und ordnen diesen anschließend vor der Selbst-Attention-Operation neu an. Der Mobile-Convolution-Block erhöht nicht nur die Repräsentationskapazität des Netzwerks, sondern erzeugt zudem verbesserte abgetastete Merkmale. Unser konzeptionell einfacher MOAT-Ansatz erweist sich überraschend effektiv und erreicht eine Top-1-Accuracy von 89,1 % / 81,5 % auf ImageNet-1K / ImageNet-1K-V2 bei Vortrainierung auf ImageNet22K. Darüber hinaus lässt sich MOAT nahtlos auf nachgeschaltete Aufgaben mit großflächigen Eingaben anwenden, indem lediglich die globale Aufmerksamkeit in Fenster-Aufmerksamkeit umgewandelt wird. Aufgrund der Mobile-Convolution, die lokale Informationen effizient zwischen Pixeln (und somit auch zwischen Fenstern) austauscht, benötigt MOAT keine zusätzliche Fenster-Verschiebemechanik. Als Ergebnis erreicht MOAT auf der COCO-Objekterkennung eine Box-AP von 59,2 % bei 227 M Modellparametern (Einzelmaßstab-Inferenz und hard NMS) und auf der ADE20K-Semantischen Segmentierung eine mIoU von 57,6 % bei 496 M Modellparametern (Einzelmaßstab-Inferenz). Schließlich zeigt die tiny-MOAT-Familie, die durch einfache Reduzierung der Kanalanzahl entsteht, ebenfalls überraschend gute Leistung und übertrifft mehrere auf Mobile-Netzwerke spezialisierte transformerbasierte Modelle auf ImageNet. Die tiny-MOAT-Familie wurde zudem auf nachgeschalteten Aufgaben evaluiert und dient nun als Benchmark-Basis für die Gemeinschaft. Wir hoffen, dass unser einfacher, aber effektiver MOAT-Ansatz weitere nahtlose Integrationen von Faltungen und Selbst-Aufmerksamkeit anregt. Der Quellcode ist öffentlich verfügbar.