Dilated Neighborhood Attention Transformer

Transformers werden zunehmend zu einer der am häufigsten eingesetzten Architekturen im Bereich des tiefen Lernens über verschiedene Modalitäten, Domänen und Aufgaben hinweg. Im Bereich der Computer Vision haben hierbei neben kontinuierlichen Bemühungen um reine Transformers auch hierarchische Transformers erhebliche Aufmerksamkeit erhalten, bedingt durch ihre Leistungsfähigkeit und die einfache Integration in bestehende Frameworks. Diese Modelle verwenden typischerweise lokalisierte Aufmerksamkeitsmechanismen, wie beispielsweise den sliding-window-basierten Neighborhood Attention (NA) oder den Shifted Window Self Attention des Swin Transformers. Obwohl diese Ansätze effektiv sind, um die quadratische Komplexität der klassischen Self-Attention zu reduzieren, schwächen sie zwei besonders wünschenswerte Eigenschaften der Self-Attention: die Modellierung langreichweitiger Inter-Abhängigkeiten und den globalen Rezeptivfeld. In diesem Artikel stellen wir Dilated Neighborhood Attention (DiNA) vor – eine natürliche, flexible und effiziente Erweiterung von NA, die in der Lage ist, mehr globale Kontextinformation zu erfassen und die Rezeptivfelder exponentiell zu erweitern, ohne zusätzlichen Aufwand zu verursachen. Die lokale Aufmerksamkeit von NA und die spärliche globale Aufmerksamkeit von DiNA ergänzen sich gegenseitig. Daher führen wir den Dilated Neighborhood Attention Transformer (DiNAT) ein, einen neuen hierarchischen Vision-Transformer, der auf beiden Mechanismen basiert. DiNAT-Varianten erreichen erhebliche Verbesserungen gegenüber starken Baselines wie NAT, Swin und ConvNeXt. Unser großes Modell ist schneller und erreicht bei der Objektdetektion auf COCO eine um 1,6 % höhere Box AP, bei der Instanzsegmentierung auf COCO eine um 1,4 % höhere Mask AP und bei der semantischen Segmentierung auf ADE20K eine um 1,4 % höhere mIoU im Vergleich zu seinem Swin-Kontrahenten. In Kombination mit neuen Frameworks stellt unsere große Variante das neue State-of-the-Art für die panoptische Segmentierung auf COCO (58,5 PQ) und ADE20K (49,4 PQ) sowie für die Instanzsegmentierung auf Cityscapes (45,1 AP) und ADE20K (35,4 AP) dar (ohne zusätzliche Daten). Zudem erreicht sie die Leistung des State-of-the-Art spezialisierter semantischer Segmentierungsmodelle auf ADE20K (58,1 mIoU) und belegt den zweiten Platz auf Cityscapes (84,5 mIoU) (ohne zusätzliche Daten).