TransNeXt: Robuste foveale visuelle Wahrnehmung für Vision Transformers

Aufgrund des Tiefenverfalls in Residual-Verbindungen scheitern viele effiziente Vision Transformer-Modelle, die auf der Stapelung von Schichten zur Informationsweitergabe basieren, häufig daran, eine ausreichende Informationsmischung zu erzeugen, was zu einer unnatürlichen visuellen Wahrnehmung führt. Um dieses Problem anzugehen, schlagen wir in diesem Paper Aggregated Attention vor – einen biomimetisch gestalteten Token-Mixer, der die biologische Fovealvision und kontinuierliche Augenbewegungen nachahmt und gleichzeitig sicherstellt, dass jeder Token auf der Feature-Karte eine globale Wahrnehmung besitzt. Zudem integrieren wir lernbare Tokens, die mit herkömmlichen Queries und Keys interagieren, wodurch die Generierung von Affinitätsmatrizen über die bloße Ähnlichkeit zwischen Queries und Keys hinaus weiter diversifiziert wird. Unser Ansatz basiert nicht auf Stapelung zur Informationsweitergabe und vermeidet daher effektiv den Tiefenverfall und erreicht eine natürliche visuelle Wahrnehmung. Darüber hinaus präsentieren wir Convolutional GLU, einen Kanal-Mixer, der die Lücke zwischen dem GLU-Mechanismus und dem SE-Mechanismus schließt und jedem Token ermöglicht, Kanal-Attention basierend auf den benachbarten Bildmerkmalen zu erzeugen, was die lokale Modellierungsfähigkeit und Robustheit des Modells verbessert. Durch die Kombination von Aggregated Attention und Convolutional GLU entwickeln wir einen neuen visuellen Backbone namens TransNeXt. Umfassende Experimente zeigen, dass TransNeXt eine state-of-the-art-Leistung über mehrere Modellgrößen hinweg erzielt. Bei einer Auflösung von $224^2$ erreicht TransNeXt-Tiny eine ImageNet-Accuracy von 84,0 % und übertrifft damit ConvNeXt-B mit 69 % weniger Parametern. TransNeXt-Base erzielt bei einer Auflösung von $384^2$ eine ImageNet-Accuracy von 86,2 % und eine ImageNet-A-Accuracy von 61,6 %, einen COCO-Objektdetektions-mAP von 57,1 sowie eine ADE20K-Semantische-Segmentation-mIoU von 54,7.