HyperAIHyperAI
vor 17 Tagen

Focal Modulation Networks

Jianwei Yang, Chunyuan Li, Xiyang Dai, Lu Yuan, Jianfeng Gao
Focal Modulation Networks
Abstract

Wir stellen Focal Modulation Networks (kurz: FocalNets) vor, bei denen die Selbst-Attention (SA) vollständig durch eine fokale Modulationsmechanik zur Modellierung von Token-Interaktionen im Bereich der Computer Vision ersetzt wird. Die fokale Modulation besteht aus drei Komponenten: (i) hierarchischer Kontextualisierung, realisiert durch einen Stapel von Depth-wise-Convolutionsschichten, um visuelle Kontexte von kurzen bis langen Reichweiten zu kodieren; (ii) gattergesteuerter Aggregation, um kontextuelle Informationen gezielt für jeden Abfrage-Token basierend auf dessen Inhalt zu sammeln; und (iii) elementweiser Modulation oder affiner Transformation, um den aggregierten Kontext in den Abfragetoken einzubetten. Umfangreiche Experimente zeigen, dass FocalNets die derzeit besten SA-basierten Ansätze (z. B. Swin und Focal Transformers) bei vergleichbaren Rechenkosten bei Aufgaben der Bildklassifikation, Objektdetektion und Segmentierung übertrifft. Insbesondere erreichen FocalNets mit kleinem und großem Modell 82,3 % bzw. 83,9 % Top-1-Accuracy auf ImageNet-1K. Nach Vortrainierung auf ImageNet-22K bei einer Auflösung von 224 erzielen sie bei Feintuning mit Auflösungen von 224 und 384 jeweils 86,5 % und 87,3 % Top-1-Accuracy. Bei der Übertragung auf nachgeschaltete Aufgaben zeigen FocalNets deutliche Überlegenheit: Bei der Objektdetektion mit Mask R-CNN übertrifft der FocalNet-Base, der mit einem 1×-Trainingsschema trainiert wurde, den Swin-Entsprechenden um 2,1 Punkte und erreicht bereits die Leistung von Swin, das mit einem 3×-Trainingsschema trainiert wurde (49,0 vs. 48,5). Bei der semantischen Segmentierung mit UPerNet übertrifft der FocalNet-Base im Einzelmaßstab Swin um 2,4 Punkte und schlägt Swin im Mehrmaßstab (50,5 vs. 49,7). Mit großem FocalNet und Mask2former erreichen wir 58,5 mIoU für die semantische Segmentierung auf ADE20K und 57,9 PQ für die COCO-Panoptic-Segmentierung. Mit einem riesigen FocalNet und DINO erzielen wir 64,3 und 64,4 mAP auf COCO minival und test-dev, wodurch neue SOTA-Ergebnisse erzielt werden, die sogar größere auf Attention basierende Modelle wie Swinv2-G und BEIT-3 übertreffen. Der Quellcode und die Modellcheckpoints sind unter https://github.com/microsoft/FocalNet verfügbar.