vor 17 Tagen

TransFG: Eine Transformer-Architektur für feinkörnige Erkennung

Ju He, Jie-Neng Chen, Shuai Liu, Adam Kortylewski, Cheng Yang, Yutong Bai, Changhu Wang

Abstract

Feinabgestufte visuelle Klassifikation (Fine-Grained Visual Classification, FGVC), die darauf abzielt, Objekte anhand von Unterklassen zu erkennen, stellt aufgrund der inhärent subtilen Unterschiede zwischen Klassen eine äußerst herausfordernde Aufgabe dar. Die meisten bestehenden Ansätze behandeln dieses Problem hauptsächlich durch die Wiederverwendung des Backbone-Netzwerks zur Extraktion von Merkmalen aus detektierten diskriminativen Regionen. Diese Strategie verkompliziert jedoch zwangsläufig den Arbeitsablauf und zwingt die vorgeschlagenen Regionen dazu, größtenteils die gesamten Objekte zu umfassen, wodurch die tatsächlich wichtigen Teile nicht präzise lokalisiert werden können. In jüngster Zeit hat der Vision Transformer (ViT) seine starke Leistungsfähigkeit bei traditionellen Klassifikationsaufgaben gezeigt. Die Selbst-Attention-Mechanismen des Transformers verknüpfen jeden Patch-Token mit dem Klassifikationstoken. In dieser Arbeit evaluieren wir zunächst die Wirksamkeit des ViT-Frameworks im Kontext der feinabgestuften Erkennung. Anschließend, motiviert durch die Tatsache, dass die Aufmerksamkeitsverbindungen intuitiv als Indikator für die Relevanz der Tokens angesehen werden können, schlagen wir einen neuartigen Part Selection Module vor, der auf die meisten Transformer-Architekturen anwendbar ist. Dabei integrieren wir alle ursprünglichen Aufmerksamkeitsgewichte des Transformers zu einer Aufmerksamkeitskarte, um das Netzwerk effektiv und präzise bei der Auswahl diskriminativer Bildpatches und der Berechnung ihrer Beziehungen zu unterstützen. Zur Vergrößerung der Distanz zwischen den Merkmalsdarstellungen verwirrender Klassen wird eine kontrastive Verlustfunktion eingesetzt. Wir bezeichnen das erweiterte, auf Transformers basierende Modell als TransFG und belegen dessen Wert durch Experimente an fünf etablierten feinabgestuften Benchmark-Datensätzen, bei denen wir eine state-of-the-art-Leistung erzielen. Qualitative Ergebnisse werden präsentiert, um ein besseres Verständnis unseres Modells zu ermöglichen.