HyperAIHyperAI

Command Palette

Search for a command to run...

Focal Modulation Networks

Jianwei Yang Chunyuan Li Xiyang Dai Lu Yuan Jianfeng Gao

Zusammenfassung

Wir stellen Focal Modulation Networks (kurz: FocalNets) vor, bei denen die Selbst-Attention (SA) vollständig durch eine fokale Modulationsmechanik zur Modellierung von Token-Interaktionen im Bereich der Computer Vision ersetzt wird. Die fokale Modulation besteht aus drei Komponenten: (i) hierarchischer Kontextualisierung, realisiert durch einen Stapel von Depth-wise-Convolutionsschichten, um visuelle Kontexte von kurzen bis langen Reichweiten zu kodieren; (ii) gattergesteuerter Aggregation, um kontextuelle Informationen gezielt für jeden Abfrage-Token basierend auf dessen Inhalt zu sammeln; und (iii) elementweiser Modulation oder affiner Transformation, um den aggregierten Kontext in den Abfragetoken einzubetten. Umfangreiche Experimente zeigen, dass FocalNets die derzeit besten SA-basierten Ansätze (z. B. Swin und Focal Transformers) bei vergleichbaren Rechenkosten bei Aufgaben der Bildklassifikation, Objektdetektion und Segmentierung übertrifft. Insbesondere erreichen FocalNets mit kleinem und großem Modell 82,3 % bzw. 83,9 % Top-1-Accuracy auf ImageNet-1K. Nach Vortrainierung auf ImageNet-22K bei einer Auflösung von 224 erzielen sie bei Feintuning mit Auflösungen von 224 und 384 jeweils 86,5 % und 87,3 % Top-1-Accuracy. Bei der Übertragung auf nachgeschaltete Aufgaben zeigen FocalNets deutliche Überlegenheit: Bei der Objektdetektion mit Mask R-CNN übertrifft der FocalNet-Base, der mit einem 1×-Trainingsschema trainiert wurde, den Swin-Entsprechenden um 2,1 Punkte und erreicht bereits die Leistung von Swin, das mit einem 3×-Trainingsschema trainiert wurde (49,0 vs. 48,5). Bei der semantischen Segmentierung mit UPerNet übertrifft der FocalNet-Base im Einzelmaßstab Swin um 2,4 Punkte und schlägt Swin im Mehrmaßstab (50,5 vs. 49,7). Mit großem FocalNet und Mask2former erreichen wir 58,5 mIoU für die semantische Segmentierung auf ADE20K und 57,9 PQ für die COCO-Panoptic-Segmentierung. Mit einem riesigen FocalNet und DINO erzielen wir 64,3 und 64,4 mAP auf COCO minival und test-dev, wodurch neue SOTA-Ergebnisse erzielt werden, die sogar größere auf Attention basierende Modelle wie Swinv2-G und BEIT-3 übertreffen. Der Quellcode und die Modellcheckpoints sind unter https://github.com/microsoft/FocalNet verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp