vor 17 Tagen

Adaptiver Split-Fusion-Transformer

Zixuan Su, Hao Zhang, Jingjing Chen, Lei Pang, Chong-Wah Ngo, Yu-Gang Jiang

Abstract

Neuronale Netze zur Verarbeitung visueller Inhalte sind kürzlich von konvolutionellen Netzwerken (CNNs) zu Transformers übergegangen. Letztere basieren auf kleinen Fenstern, um regionale Merkmale zu erfassen und zeichnen sich durch eine starke lokale Ausdruckskraft aus. Im Gegensatz dazu ermöglicht der Transformer durch die Schaffung langreichweitiger globaler Verbindungen zwischen lokalen Bereichen ein ganzheitliches Lernen. Inspiriert durch diese komplementäre Natur gewinnt die Entwicklung hybrider Modelle zunehmend an Bedeutung, um die jeweiligen Stärken beider Ansätze optimal zu nutzen. Aktuelle Hybriden ersetzen lediglich die Konvolutionen durch einfache Approximationen der linearen Projektion oder kombinieren eine Konvolutionszweig mit einem Attention-Zweig, ohne die Bedeutung der lokalen und globalen Modellierung angemessen zu berücksichtigen. Um dieses Problem anzugehen, schlagen wir einen neuen Hybridnamens Adaptive Split-Fusion Transformer (ASF-former) vor, der die konvolutionellen und Attention-Zweige mit adaptiven Gewichten unterschiedlich behandelt. Konkret teilt ein ASF-former-Encoder die Merkmalskanäle gleichmäßig in zwei Hälften auf, um dual-path-Eingaben zu ermöglichen. Anschließend werden die Ausgaben beider Pfade mit gewichteten Skalaren fusioniert, die aus visuellen Hinweisen berechnet werden. Zudem wurde der konvolutionelle Pfad kompakt gestaltet, um Effizienz zu gewährleisten. Umfangreiche Experimente an etablierten Benchmarks wie ImageNet-1K, CIFAR-10 und CIFAR-100 zeigen, dass unser ASF-former sowohl gegenüber reinen CNNs, Transformers als auch gegenüber bestehenden Hybriden in Bezug auf Genauigkeit übertrifft (83,9 % auf ImageNet-1K), unter vergleichbaren Bedingungen (12,9G MACs / 56,7M Parameter, ohne großskaliges Vortrainieren). Der Quellcode ist verfügbar unter: https://github.com/szx503045266/ASF-former.