vor 17 Tagen

SparseSwin: Swin Transformer mit sparsem Transformer-Block

Krisna Pinasthika, Blessius Sheldo Putra Laksono, Riyandi Banovbi Putera Irsal, Syifa Hukma Shabiyya, Novanto Yudistira

Abstract

Fortschritte in der Forschung zum Computer Vision haben die Transformer-Architektur als Stand der Technik für Aufgaben im Bereich des Computer Vision etabliert. Ein bekannter Nachteil der Transformer-Architektur ist die hohe Anzahl an Parametern, was zu einem komplexeren und ineffizienteren Algorithmus führen kann. Diese Arbeit zielt darauf ab, die Anzahl der Parameter zu reduzieren und damit die Effizienz des Transformers zu steigern. Wir stellen den Sparse Transformer (SparTa)-Block vor, eine modifizierte Transformer-Block-Architektur, die über einen sparsen Token-Konverter verfügt, der die Anzahl der verwendeten Tokens verringert. Der SparTa-Block wird innerhalb der Swin-T-Architektur (SparseSwin) integriert, um die Fähigkeit von Swin auszunutzen, die Eingabedaten zu komprimieren und die Anzahl der initialen Tokens zu reduzieren, die berechnet werden müssen. Das vorgeschlagene SparseSwin-Modell erreicht bei der Bildklassifizierung bessere Ergebnisse als andere state-of-the-art-Modelle mit einer Genauigkeit von 86,96 %, 97,43 % und 85,35 % auf den Datensätzen ImageNet100, CIFAR10 und CIFAR100. Trotz einer geringeren Anzahl an Parametern unterstreicht dieses Ergebnis das Potenzial einer Transformer-Architektur, die einen sparsen Token-Konverter mit einer begrenzten Anzahl von Tokens nutzt, um die Nutzung des Transformers zu optimieren und deren Leistung zu verbessern.