HyperAIHyperAI

Command Palette

Search for a command to run...

TransFG: Eine Transformer-Architektur für feinkörnige Erkennung

Ju He Jie-Neng Chen Shuai Liu Adam Kortylewski Cheng Yang Yutong Bai Changhu Wang

Zusammenfassung

Feinabgestufte visuelle Klassifikation (Fine-Grained Visual Classification, FGVC), die darauf abzielt, Objekte anhand von Unterklassen zu erkennen, stellt aufgrund der inhärent subtilen Unterschiede zwischen Klassen eine äußerst herausfordernde Aufgabe dar. Die meisten bestehenden Ansätze behandeln dieses Problem hauptsächlich durch die Wiederverwendung des Backbone-Netzwerks zur Extraktion von Merkmalen aus detektierten diskriminativen Regionen. Diese Strategie verkompliziert jedoch zwangsläufig den Arbeitsablauf und zwingt die vorgeschlagenen Regionen dazu, größtenteils die gesamten Objekte zu umfassen, wodurch die tatsächlich wichtigen Teile nicht präzise lokalisiert werden können. In jüngster Zeit hat der Vision Transformer (ViT) seine starke Leistungsfähigkeit bei traditionellen Klassifikationsaufgaben gezeigt. Die Selbst-Attention-Mechanismen des Transformers verknüpfen jeden Patch-Token mit dem Klassifikationstoken. In dieser Arbeit evaluieren wir zunächst die Wirksamkeit des ViT-Frameworks im Kontext der feinabgestuften Erkennung. Anschließend, motiviert durch die Tatsache, dass die Aufmerksamkeitsverbindungen intuitiv als Indikator für die Relevanz der Tokens angesehen werden können, schlagen wir einen neuartigen Part Selection Module vor, der auf die meisten Transformer-Architekturen anwendbar ist. Dabei integrieren wir alle ursprünglichen Aufmerksamkeitsgewichte des Transformers zu einer Aufmerksamkeitskarte, um das Netzwerk effektiv und präzise bei der Auswahl diskriminativer Bildpatches und der Berechnung ihrer Beziehungen zu unterstützen. Zur Vergrößerung der Distanz zwischen den Merkmalsdarstellungen verwirrender Klassen wird eine kontrastive Verlustfunktion eingesetzt. Wir bezeichnen das erweiterte, auf Transformers basierende Modell als TransFG und belegen dessen Wert durch Experimente an fünf etablierten feinabgestuften Benchmark-Datensätzen, bei denen wir eine state-of-the-art-Leistung erzielen. Qualitative Ergebnisse werden präsentiert, um ein besseres Verständnis unseres Modells zu ermöglichen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp