HyperAIHyperAI
vor 17 Tagen

Multi-Granularity Part Sampling Attention für die feinabgestimmte visuelle Klassifikation

{Jinhui Tang, Bin Luo, Bo Jiang, Qin Xu, Jiahui Wang}
Abstract

Feinabgestufte visuelle Klassifikation zielt darauf ab, ähnliche Unter-Kategorien zu klassifizieren, wobei die Herausforderungen großer Variation innerhalb derselben Unter-Kategorie sowie hoher visueller Ähnlichkeit zwischen verschiedenen Unter-Kategorien bestehen. In letzter Zeit haben Methoden, die semantische Teile diskriminativer Regionen extrahieren, zunehmend Aufmerksamkeit erlangt. Allerdings extrahieren die meisten bestehenden Ansätze Teilmerkmale mittels rechteckiger Bounding-Boxes über ein Objektdetektionsmodul oder eine Aufmerksamkeitsmechanik, was es schwierig macht, die reichhaltige Forminformation von Objekten zu erfassen. In diesem Artikel stellen wir ein neuartiges Multi-Granularity Part Sampling Attention (MPSA)-Netzwerk für die feinabgestufte visuelle Klassifikation vor. Zunächst wird ein neuartiger Multi-Granularity Part Retrospect Block entworfen, um Teilinformationen unterschiedlicher Skalen zu extrahieren und die hochwertige Merkmalsrepräsentation durch diskriminative Teilmerkmale unterschiedlicher Granularität zu verbessern. Anschließend schlagen wir Part Sampling Attention vor, um Teilmerkmale verschiedener Formen auf jeder Granularität umfassend zu extrahieren. Die vorgeschlagene Part Sampling Attention berücksichtigt nicht nur die Relevanz der ausgewählten Teile, sondern setzt auch ein Part Dropout ein, um das Überanpassungsproblem zu reduzieren. Darüber hinaus entwickeln wir eine neuartige Multi-Granularity-Fusionsmethode, die mit Hilfe der Gradient-Class-Activation-Map (Grad-CAM) die Vordergrundmerkmale hervorhebt und Hintergrundrauschen unterdrückt. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene MPSA eine state-of-the-art-Leistung auf vier gängigen Benchmarks für feinabgestufte visuelle Klassifikation erzielt. Der Quellcode ist öffentlich unter https://github.com/mobulan/MPSA verfügbar.