HyperAIHyperAI

Command Palette

Search for a command to run...

Ein kostenloses Mittagessen vom ViT: Adaptive Attention Multi-Scale Fusion Transformer für feinabgestimmte visuelle Erkennung

Yuan Zhang Jian Cao Ling Zhang Xiangcheng Liu Zhiyi Wang Feng Ling Weiqian Chen

Zusammenfassung

Das Lernen subtiler Darstellungen von Objektteilen spielt eine entscheidende Rolle im Bereich der feinabgestuften visuellen Erkennung (Fine-Grained Visual Recognition, FGVR). Der Vision Transformer (ViT) erreicht aufgrund seiner Aufmerksamkeitsmechanismen vielversprechende Ergebnisse in der Computer Vision. Dennoch führt die feste Patch-Größe im ViT dazu, dass der Class-Token in tiefen Schichten sich auf das globale Empfindungsfeld konzentriert und keine mehrskaligen Merkmale für FGVR generieren kann. Um regionale Aufmerksamkeit ohne Box-Annotationen zu erfassen und die Schwächen des ViT im Kontext von FGVR zu kompensieren, schlagen wir eine neuartige Methode namens Adaptive Attention Multi-Scale Fusion Transformer (AFTrans) vor. Das Selective Attention Collection Module (SACM) in unserem Ansatz nutzt die Aufmerksamkeitsgewichte des ViTs und filtert sie adaptiv, um der relativen Bedeutung der Eingabepatches gerecht zu werden. Die mehrskalige (globale und lokale) Architektur wird durch unseren gewichteteilenden Encoder supervidiert und kann problemlos end-to-end trainiert werden. Umfassende Experimente zeigen, dass AFTrans SOTA-Leistung auf drei veröffentlichten feinabgestuften Benchmarks erzielt: CUB-200-2011, Stanford Dogs und iNat2017.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp