HyperAIHyperAI
vor 17 Tagen

Feinabgestimmte visuelle Klassifikation mittels interner Ensemble-Lern-Transformer

{Bin Luo, Bo Jiang, Jiahui Wang, Qin Xu}
Abstract

In jüngster Zeit wurden Vision-Transformer (ViT) in der feinabgestuften visuellen Erkennung (Fine-Grained Visual Recognition, FGVC) untersucht und gelten mittlerweile als State-of-the-Art. Allerdings ignorieren die meisten auf ViT basierenden Ansätze die unterschiedlichen Lernleistungen der Heads im Multi-Head Self-Attention (MHSA)-Mechanismus sowie der verschiedenen Schichten. Um diese Probleme anzugehen, stellen wir in diesem Artikel einen neuartigen Internal Ensemble Learning Transformer (IELT) für FGVC vor. Der vorgeschlagene IELT besteht aus drei Hauptmodulen: dem Multi-Head Voting (MHV)-Modul, dem Cross-Layer Refinement (CLR)-Modul sowie dem Dynamic Selection (DS)-Modul. Um das Problem der ungleichmäßigen Leistung mehrerer Heads zu lösen, führen wir das MHV-Modul ein, bei dem alle Heads jeder Schicht als schwache Lerner betrachtet werden und auf Basis der Aufmerksamkeitskarten sowie räumlicher Beziehungen für Tokens diskriminativer Regionen abstimmen, um eine über Schichten hinweg konsistente Merkmalsrepräsentation zu erzeugen. Um die effektive Auswertung der über Schichten hinweg verflochtenen Merkmale und die Unterdrückung von Rauschen zu gewährleisten, wird das CLR-Modul vorgestellt, welches eine verfeinerte Merkmalsrepräsentation extrahiert und eine assistierende Logits-Operation zur finalen Vorhersage entwickelt. Zudem regelt das neu gestaltete DS-Modul die Anzahl der ausgewählten Tokens in jeder Schicht dynamisch, indem es die Beiträge der verfeinerten Merkmale gewichtet. Auf diese Weise wird das Konzept des Ensemble-Lernens mit dem ViT verknüpft, um die feinabgestufte Merkmalsrepräsentation zu verbessern. Experimente zeigen, dass unsere Methode im Vergleich zum Stand der Technik auf fünf gängigen FGVC-Datensätzen konkurrenzfähige Ergebnisse erzielt. Der Quellcode ist öffentlich verfügbar und kann unter https://github.com/mobulan/IELT eingesehen und heruntergeladen werden.