Focal Self-Attention für lokale-global Interaktionen in Vision Transformers

Kürzlich haben Vision Transformer und deren Varianten erhebliches Versprechen auf verschiedenen Aufgaben des maschinellen Sehens gezeigt. Die Fähigkeit, sowohl kurz- als auch langreichweite visuelle Abhängigkeiten durch Selbst-Attention zu erfassen, gilt als Hauptursache für ihren Erfolg. Gleichzeitig bringt diese Eigenschaft jedoch Herausforderungen mit sich, insbesondere aufgrund der quadratischen Rechenkomplexität, besonders bei hochauflösenden visuellen Aufgaben (z. B. Objekterkennung). In diesem Paper stellen wir die fokale Selbst-Attention vor, eine neue Mechanik, die sowohl fein granulare lokale als auch grob granulare globale Interaktionen integriert. Mittels dieser neuen Mechanik achtet jeder Token auf die unmittelbar benachbarten Tokens mit feiner Granularität, während er gleichzeitig Tokens in größerer Entfernung auf grober Granularität berücksichtigt. Dadurch kann er sowohl kurz- als auch langreichweite visuelle Abhängigkeiten effizient und effektiv erfassen. Auf Basis der fokalen Selbst-Attention entwickeln wir eine neue Variante von Vision Transformer-Modellen, den Focal Transformer, der auf einer Reihe öffentlicher Benchmarks für Bildklassifikation und Objekterkennung die derzeit besten Vision Transformer-Modelle übertrifft. Insbesondere erreichen unsere Focal Transformer-Modelle mit einer moderaten Größe von 51,1 Mio. und einer größeren Größe von 89,8 Mio. Parameter jeweils eine Top-1-Accuracy von 83,5 % und 83,8 % bei der ImageNet-Klassifikation bei einer Auflösung von 224×224. Bei Verwendung von Focal Transformers als Backbone erzielen wir konsistente und erhebliche Verbesserungen gegenüber den aktuellen State-of-the-Art-Swin Transformers bei sechs verschiedenen Methoden zur Objekterkennung, die mit standardmäßigen 1x- und 3x-Schulplänen trainiert wurden. Unser größter Focal Transformer erreicht 58,7/58,9 Box mAP und 50,9/51,3 Mask mAP auf COCO mini-val/test-dev sowie 55,4 mIoU auf ADE20K für die semantische Segmentierung und stellt damit neue State-of-the-Art-Werte für drei der anspruchsvollsten Aufgaben im Bereich des maschinellen Sehens dar.