vor 17 Tagen

DAS: Eine deformierbare Aufmerksamkeit zur Erfassung markanter Informationen in CNNs

Farzad Salajegheh, Nader Asadi, Soroush Saryazdi, Sudhir Mudur

Abstract

Convolutional Neural Networks (CNNs) zeichnen sich durch eine hervorragende Fähigkeit zur Erkennung lokaler räumlicher Muster aus. Bei vielen Computer-Vision-Aufgaben, wie Objekterkennung und Segmentierung, ist jedoch auch relevante Information jenseits der Kernel-Grenzen von CNNs vorhanden. Aufgrund ihrer begrenzten Empfindlichkeitsfelder (receptive fields) stoßen CNNs jedoch häufig an ihre Grenzen, wenn es darum geht, solche Informationen zu erfassen. Selbst-Attention kann die Zugänglichkeit zu globaler Information verbessern, führt jedoch zu einem erhöhten Rechenaufwand. Wir präsentieren eine schnelle und einfache, vollständig konvolutionale Methode namens DAS, die es ermöglicht, sich auf relevante Informationen zu konzentrieren. DAS nutzt deformierbare Konvolutionen zur Lokalisierung bedeutender Bildregionen und separable Konvolutionen zur Effizienzsteigerung. Die Methode lässt sich nahtlos in bestehende CNNs integrieren und verbreitet relevante Informationen mittels eines Gating-Mechanismus. Im Gegensatz zur transformer-basierten Attention mit einer Rechenkomplexität von O(n²) weist DAS eine Komplexität von O(n) auf. Wir behaupten, dass die Fähigkeit von DAS, verstärkt auf relevante Merkmale zu achten, zu einer Leistungssteigerung führt, wenn sie in gängige CNNs für die Bildklassifikation und Objekterkennung integriert wird. Beispielsweise erzielt DAS bei Verwendung eines Basis-ResNet50-Backbones eine Verbesserung um 4,47 % auf Stanford Dogs, 1,91 % auf ImageNet und 3,3 % auf COCO AP. DAS übertrifft dabei andere CNN-basierte Aufmerksamkeitsmechanismen, während sie vergleichbare oder geringere FLOPs (Floating Point Operations) verbraucht. Der Quellcode wird öffentlich verfügbar gemacht.