HyperAIHyperAI
vor 17 Tagen

RAMS-Trans: Recurrent Attention Multi-scale Transformer für die feinkörnige Bilderkennung

Yunqing Hu, Xuan Jin, Yin Zhang, Haiwen Hong, Jingfeng Zhang, Yuan He, Hui Xue
RAMS-Trans: Recurrent Attention Multi-scale Transformer für die feinkörnige Bilderkennung
Abstract

Bei der feinkörnigen Bilderkennung (Fine-Grained Image Recognition, FGIR) spielt die Lokalisierung und Verstärkung von Regionen-Attention eine entscheidende Rolle, was bereits umfassend durch herkömmliche Ansätze basierend auf Faltungsneuralen Netzen (Convolutional Neural Networks, CNNs) erforscht wurde. Kürzlich entwickelte Vision-Transformer (ViT) haben vielversprechende Ergebnisse bei Aufgaben des maschinellen Sehens erzielt. Im Vergleich zu CNNs stellt die Bildsequenzierung eine neuartige Herangehensweise dar. Allerdings ist ViT aufgrund der festen Patch-Größe in seiner Empfindlichkeitsfeldgröße begrenzt und verfügt daher im Gegensatz zu CNNs über einen Mangel an lokaler Aufmerksamkeit sowie über die Fähigkeit, mehrskalige Merkmale zu generieren, um diskriminative Regionen-Attention zu lernen. Um die Lernung diskriminativer Regionen-Attention ohne Box- oder Teilannotierungen zu fördern, nutzen wir die Stärke der Aufmerksamkeitsgewichte, um die Relevanz der Patch-Token, die den ursprünglichen Bildern entsprechen, zu messen. Wir schlagen den rekursiven Aufmerksamkeits-Mehrskalen-Transformer (Recurrent Attention Multi-Scale Transformer, RAMS-Trans) vor, der die Selbst-Aufmerksamkeit des Transformers nutzt, um diskriminative Regionen-Attention auf mehrskalige Weise rekursiv zu lernen. Insbesondere beruht der Kern unserer Methode auf dem dynamischen Patch-Vorschlagsmodul (Dynamic Patch Proposal Module, DPPM), das die Regionenverstärkung zur Integration mehrskaliger Bildpatches ermöglicht. Das DPPM beginnt mit Patchen in voller Bildgröße und skaliert iterativ die Regionen-Aufmerksamkeit von global nach lokal, wobei die Intensität der Aufmerksamkeitsgewichte jeder Skala als Indikator für die Generierung neuer Patchen dient. Unser Ansatz benötigt lediglich die Aufmerksamkeitsgewichte, die ViT intrinsisch mitliefert, und kann problemlos end-to-end trainiert werden. Umfangreiche Experimente zeigen, dass RAMS-Trans sowohl gegenüber aktuellen Ansätzen als auch gegenüber effizienten CNN-Modellen überlegen ist und auf drei Standard-Datensätzen Zustand-des-Kunst-Ergebnisse erzielt.