Ein kostenloses Mittagessen vom ViT: Adaptive Attention Multi-Scale Fusion Transformer für feinabgestimmte visuelle Erkennung

Das Lernen subtiler Darstellungen von Objektteilen spielt eine entscheidende Rolle im Bereich der feinabgestuften visuellen Erkennung (Fine-Grained Visual Recognition, FGVR). Der Vision Transformer (ViT) erreicht aufgrund seiner Aufmerksamkeitsmechanismen vielversprechende Ergebnisse in der Computer Vision. Dennoch führt die feste Patch-Größe im ViT dazu, dass der Class-Token in tiefen Schichten sich auf das globale Empfindungsfeld konzentriert und keine mehrskaligen Merkmale für FGVR generieren kann. Um regionale Aufmerksamkeit ohne Box-Annotationen zu erfassen und die Schwächen des ViT im Kontext von FGVR zu kompensieren, schlagen wir eine neuartige Methode namens Adaptive Attention Multi-Scale Fusion Transformer (AFTrans) vor. Das Selective Attention Collection Module (SACM) in unserem Ansatz nutzt die Aufmerksamkeitsgewichte des ViTs und filtert sie adaptiv, um der relativen Bedeutung der Eingabepatches gerecht zu werden. Die mehrskalige (globale und lokale) Architektur wird durch unseren gewichteteilenden Encoder supervidiert und kann problemlos end-to-end trainiert werden. Umfassende Experimente zeigen, dass AFTrans SOTA-Leistung auf drei veröffentlichten feinabgestuften Benchmarks erzielt: CUB-200-2011, Stanford Dogs und iNat2017.