Besser sehen, bevor man genauer hinschaut: Schwach überwachtes Datenaugmentationsnetzwerk für feingranulare visuelle Klassifizierung

Datenverstärkung wird in der Regel angewendet, um die Menge an Trainingsdaten zu erhöhen, Overfitting zu verhindern und die Leistung von tiefen Modellen zu verbessern. In der Praxis ist jedoch zufällige Datenverstärkung, wie zufälliges Bildausschneiden, ineffizient und kann viele unkontrollierte Hintergrundstörungen einführen. In dieser Arbeit schlagen wir ein schwach überwachtes Datenverstärkungsnetzwerk (WS-DAN) vor, um das Potenzial der Datenverstärkung zu erforschen. Speziell generieren wir für jedes Trainingsbild zunächst Aufmerksamkeitskarten, die die diskriminierenden Teile des Objekts durch schwach überwachte Lernmethoden darstellen. Anschließend erweitern wir das Bild unter Anleitung dieser Aufmerksamkeitskarten, einschließlich Aufmerksamkeitsausschneidens und -entfernens. Das vorgeschlagene WS-DAN verbessert die Klassifizierungsgenauigkeit auf zwei Arten. Im ersten Stadium können Bilder besser wahrgenommen werden, da Merkmale von mehr diskriminierenden Teilen extrahiert werden. Im zweiten Stadium bieten Aufmerksamkeitsbereiche eine genaue Lokalisierung des Objekts, was sicherstellt, dass unser Modell das Objekt näher ins Auge fasst und somit die Leistung weiter verbessert. Umfassende Experimente mit gängigen Feinklassifikationsdatensätzen zeigen, dass unser WS-DAN den Stand der Technik übertreffen kann, was seine Effektivität beweist.