SnapMix: Semantisch proportionales Mischen zur Verbesserung feinkörniger Daten

Die Datenmischungs-Augmentation hat sich als wirksam bei der Schulung tiefer Modelle erwiesen. Moderne Methoden mischen hauptsächlich die Labels basierend auf dem Anteil von Bildpixeln. Da sich die hauptsächlichen diskriminativen Informationen in feinabgestuften Bildern jedoch in subtilen Regionen befinden, sind Verfahren dieser Art anfällig für starke Label-Rauschsignale bei der feinabgestuften Erkennung. In diesem Artikel stellen wir ein neuartiges Verfahren vor, das als semantisch proportionale Mischung (SnapMix) bezeichnet wird und die Klassen-Aktivierungs-Karte (CAM) nutzt, um das Label-Rauschen bei der Augmentation feinabgestufter Daten zu verringern. SnapMix bestimmt das Ziel-Label für ein gemischtes Bild durch Schätzung seiner inhärenten semantischen Zusammensetzung und ermöglicht asymmetrische Mischoperationen sowie eine semantische Korrespondenz zwischen synthetischen Bildern und den entsprechenden Ziel-Labels. Experimente zeigen, dass unsere Methode beständig die bestehenden Ansätze basierend auf Mischung auf verschiedenen Datensätzen und bei unterschiedlichen Netzwerk-Tiefen übertrifft. Darüber hinaus erreicht SnapMix durch die Einbeziehung mittlerer Merkmale eine Spitzenleistung, was sein Potenzial als solide Basis für die feinabgestufte Erkennung unterstreicht. Der Quellcode ist unter https://github.com/Shaoli-Huang/SnapMix.git verfügbar.