Swin Transformer V2: Skalierung der Kapazität und Auflösung

Großskalige NLP-Modelle haben gezeigt, dass sie die Leistung bei Sprachaufgaben erheblich verbessern können, ohne Anzeichen einer Sättigung zu zeigen. Zudem demonstrieren sie erstaunliche Few-Shot-Fähigkeiten, die an menschliche Fähigkeiten erinnern. Diese Arbeit zielt darauf ab, großskalige Modelle im Bereich des maschinellen Sehens zu erforschen. Wir behandeln drei zentrale Herausforderungen bei der Schulung und Anwendung großer visueller Modelle: Schulungsinstabilität, Auflösungslücken zwischen Vorverarbeitung und Feinabstimmung sowie der Bedarf an großen Mengen an gelabelten Daten. Drei Haupttechniken werden vorgestellt: 1) Eine Residual-Post-Norm-Methode in Kombination mit Cosinus-Attention zur Verbesserung der Schulungsstabilität; 2) Eine logarithmisch gleichmäßig verteilte kontinuierliche Positions-Bias-Methode, um effektiv Modelle, die mit niedrigauflösenden Bildern vorgeschult wurden, auf nachgeschaltete Aufgaben mit hochauflösenden Eingaben zu übertragen; 3) Eine selbstüberwachte Vorverarbeitungsmethode, SimMIM, um den Bedarf an umfangreichen gelabelten Bildern zu reduzieren. Durch diese Techniken gelang es uns erfolgreich, ein Swin-Transformer V2-Modell mit 3 Milliarden Parametern zu trainieren, das bislang das größte dichte visuelle Modell darstellt, und es so zu einem Training mit Bildern bis zu einer Auflösung von 1.536 × 1.536 zu befähigen. Das Modell erreichte neue Bestleistungen bei vier repräsentativen visuellen Aufgaben, darunter ImageNet-V2-Bildklassifikation, COCO-Objekterkennung, ADE20K-Semantische Segmentierung und Kinetics-400-Videoaktion-Klassifikation. Hinzuweisen ist ferner, dass unser Trainingsansatz deutlich effizienter ist als der bei Google entwickelter Billionen-Modell-basierter visueller Systeme: Wir benötigen 40-mal weniger gelabelte Daten und 40-mal weniger Trainingszeit. Der Quellcode ist unter \url{https://github.com/microsoft/Swin-Transformer} verfügbar.