Feinabstimmende visuelle Klassifikation mit Hochtemperatur-Verfeinerung und Hintergrundunterdrückung

Feinabgestufte visuelle Klassifikation ist aufgrund der hohen Ähnlichkeit zwischen Kategorien und der erheblichen Variabilität innerhalb einer einzelnen Kategorie eine herausfordernde Aufgabe. Um diese Herausforderungen anzugehen, haben frühere Ansätze sich auf die Lokalisierung subtiler Unterschiede zwischen Kategorien und die Verbesserung diskriminativer Merkmale konzentriert. Allerdings liefert auch die Hintergrundinformation wertvolle Hinweise, die dem Modell zeigen, welche Merkmale für die Klassifikation unnötig oder sogar schädlich sind. Modelle, die sich zu stark auf subtile Merkmale stützen, können dabei globale Merkmale und kontextuelle Informationen übersehen. In diesem Artikel stellen wir ein neuartiges Netzwerk namens „High-temperature Refinement and Background Suppression“ (HERBS) vor, das aus zwei Modulen besteht: dem High-Temperature-Refinement-Modul und dem Hintergrundunterdrückungs-Modul. Das erste Modul dient zur Extraktion diskriminativer Merkmale, während das zweite Modul Hintergrundrauschen unterdrückt. Das High-Temperature-Refinement-Modul ermöglicht es dem Modell, geeignete Merkmalsgrößen zu lernen, indem es Merkmalskarten auf verschiedenen Skalen verfeinert und somit das Lernen vielfältiger Merkmale verbessert. Das Hintergrundunterdrückungs-Modul teilt zunächst die Merkmalskarte anhand der Klassifikationszuverlässigkeitswerte in Vordergrund- und Hintergrundbereiche auf und unterdrückt dabei die Merkmalswerte in Bereichen mit geringer Zuverlässigkeit, während es diskriminative Merkmale verstärkt. Die experimentellen Ergebnisse zeigen, dass HERBS Merkmale unterschiedlicher Skalen effektiv fusioniert, Hintergrundrauschen unterdrückt und diskriminative Merkmale auf angemessenen Skalen für die feinabgestufte visuelle Klassifikation extrahiert. Die vorgeschlagene Methode erreicht eine state-of-the-art-Leistung auf den Benchmarks CUB-200-2011 und NABirds und übertrifft sowohl auf beiden Datensätzen eine Genauigkeit von 93 %. Somit stellt HERBS eine vielversprechende Lösung zur Verbesserung der Leistung feinabgestufter visueller Klassifikationsaufgaben dar. Code: https://github.com/chou141253/FGVC-HERBS