Part-guided Relational Transformers für die feinkörnige visuelle Erkennung

Feinabgestufte visuelle Erkennung zielt darauf ab, Objekte mit visuell ähnlichen Erscheinungen in Unter-Kategorien zu klassifizieren und hat mit der Entwicklung tiefer CNNs erhebliche Fortschritte erzielt. Dennoch bleibt die Bewältigung subtiler Unterschiede zwischen verschiedenen Unter-Kategorien weiterhin eine Herausforderung. In diesem Artikel schlagen wir einen einheitlichen Ansatz vor, um dieses Problem aus zwei Perspektiven zu lösen: durch die Konstruktion von Merkmalsbeziehungen auf der Ebene der Merkmale und durch die Erfassung diskriminativer Merkmale auf der Teil-Ebene. Der vorgeschlagene Rahmen, namens PArt-guided Relational Transformers (PART), ermöglicht die Lernung diskriminativer Teilmerkmale mittels eines automatischen Teil-Entdeckungsmoduls und untersucht dabei die inhärenten Korrelationen durch ein Merkmalstransformationsmodul, das Transformer-Modelle aus dem Bereich der natürlichen Sprachverarbeitung adaptiert. Das Teil-Entdeckungsmodul erkennt effizient diskriminative Regionen, die stark mit dem Gradientenabstiegsverfahren korrelieren. Anschließend errichtet das zweite Merkmalstransformationsmodul Beziehungen zwischen dem globalen Embedding und mehreren Teil-Embeddings, wodurch die räumlichen Wechselwirkungen zwischen semantisch relevanten Pixeln verstärkt werden. Darüber hinaus basiert unser Ansatz nicht auf zusätzlichen Teilzweigen während der Inferenzzeit und erreicht state-of-the-art-Leistung auf drei weit verbreiteten Benchmarks für feinabgestufte Objekterkennung. Experimentelle Ergebnisse sowie erklärbare Visualisierungen belegen die Wirksamkeit unseres vorgeschlagenen Ansatzes. Der Quellcode ist unter https://github.com/iCVTEAM/PART verfügbar.