BinaryViT: Die Weiterentwicklung binärer Vision Transformers hin zu konvolutionellen Modellen

Mit der zunehmenden Beliebtheit und Größe von Vision Transformers (ViTs) wächst das Interesse an einer effizienteren und rechenkostengünstigeren Ausführung dieser Modelle auf Edge-Geräten mit begrenzten Rechenressourcen. Die Binarisierung kann helfen, die Größe von ViT-Modellen und deren rechnerischen Aufwand erheblich zu reduzieren, insbesondere wenn Gewichte und Aktivierungen binär sind und nur Popcount-Operationen benötigt werden. Allerdings leiden ViTs im Vergleich zu Convolutional Neural Networks (CNNs) bei der Anwendung direkter CNN-Binarisierungsmethoden oder bestehender Binarisierungstechniken auf Datensätzen mit einer großen Anzahl an Klassen wie ImageNet-1k stärker an Leistungsverlusten. Durch umfassende Analysen stellen wir fest, dass binäre Vanilla-ViTs wie DeiT eine Reihe wesentlicher architektonischer Eigenschaften vermissen, die CNNs besitzen und die binäre CNNs deutlich höhere Repräsentationsfähigkeit ermöglichen. Daher schlagen wir BinaryViT vor, bei dem wir uns von der CNN-Architektur inspirieren lassen und Operationen aus der CNN-Architektur in eine reine ViT-Architektur integrieren, um die Repräsentationsfähigkeit eines binären ViT zu verbessern, ohne echte Faltungsoperationen einzuführen. Dazu gehören eine Durchschnitts-Pooling-Schicht anstelle einer Token-Pooling-Schicht, ein Block mit mehreren Durchschnitts-Pooling-Zweigen, eine affin-lineare Transformation unmittelbar vor der Addition jeder Haupt-Residualverbindung sowie eine Pyramidenstruktur. Experimentelle Ergebnisse auf dem ImageNet-1k-Datensatz belegen die Wirksamkeit dieser Maßnahmen, wodurch ein binäres reines ViT-Modell mit bisherigen state-of-the-art (SOTA)-binären CNN-Modellen konkurrieren kann.