HyperAIHyperAI

Command Palette

Search for a command to run...

TransNeXt: Robuste foveale visuelle Wahrnehmung für Vision Transformers

Dai Shi

Zusammenfassung

Aufgrund des Tiefenverfalls in Residual-Verbindungen scheitern viele effiziente Vision Transformer-Modelle, die auf der Stapelung von Schichten zur Informationsweitergabe basieren, häufig daran, eine ausreichende Informationsmischung zu erzeugen, was zu einer unnatürlichen visuellen Wahrnehmung führt. Um dieses Problem anzugehen, schlagen wir in diesem Paper Aggregated Attention vor – einen biomimetisch gestalteten Token-Mixer, der die biologische Fovealvision und kontinuierliche Augenbewegungen nachahmt und gleichzeitig sicherstellt, dass jeder Token auf der Feature-Karte eine globale Wahrnehmung besitzt. Zudem integrieren wir lernbare Tokens, die mit herkömmlichen Queries und Keys interagieren, wodurch die Generierung von Affinitätsmatrizen über die bloße Ähnlichkeit zwischen Queries und Keys hinaus weiter diversifiziert wird. Unser Ansatz basiert nicht auf Stapelung zur Informationsweitergabe und vermeidet daher effektiv den Tiefenverfall und erreicht eine natürliche visuelle Wahrnehmung. Darüber hinaus präsentieren wir Convolutional GLU, einen Kanal-Mixer, der die Lücke zwischen dem GLU-Mechanismus und dem SE-Mechanismus schließt und jedem Token ermöglicht, Kanal-Attention basierend auf den benachbarten Bildmerkmalen zu erzeugen, was die lokale Modellierungsfähigkeit und Robustheit des Modells verbessert. Durch die Kombination von Aggregated Attention und Convolutional GLU entwickeln wir einen neuen visuellen Backbone namens TransNeXt. Umfassende Experimente zeigen, dass TransNeXt eine state-of-the-art-Leistung über mehrere Modellgrößen hinweg erzielt. Bei einer Auflösung von 2242224^22242 erreicht TransNeXt-Tiny eine ImageNet-Accuracy von 84,0 % und übertrifft damit ConvNeXt-B mit 69 % weniger Parametern. TransNeXt-Base erzielt bei einer Auflösung von 3842384^23842 eine ImageNet-Accuracy von 86,2 % und eine ImageNet-A-Accuracy von 61,6 %, einen COCO-Objektdetektions-mAP von 57,1 sowie eine ADE20K-Semantische-Segmentation-mIoU von 54,7.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp