Lernen semantisch verstärkter Merkmale für die feinkörnige Bildklassifikation

In diesem Brief stellen wir einen rechnerisch kostengünstigen, jedoch effektiven Ansatz für die feinkörnige Bildklassifikation (Fine-Grained Image Classification, FGIC) vor. Im Gegensatz zu früheren Methoden, die auf komplexen Lokalisationsmodulen für Teile basieren, erlernen wir feinkörnige Merkmale, indem wir die Semantik von Untermerkmalen eines globalen Merkmals verbessern. Konkret erreichen wir zunächst die Semantik der Untermerkmale, indem wir die Merkmalskanäle eines CNN durch Kanalpermutation in verschiedene Gruppen aufteilen. Gleichzeitig wird die Unterscheidbarkeit der Untermerkmale durch eine gewichtete Kombinations-Regularisierung gesteigert, wobei die Gruppen so geführt werden, dass sie auf objektiven Teilen mit hoher Unterscheidbarkeit aktiviert werden. Unser Ansatz ist parameterarm und kann problemlos als Plug-and-Play-Modul in den Hauptmodellarchitektur integriert werden, um mit nur bildlevel-Überwachung end-to-end zu trainieren. Experimente bestätigen die Wirksamkeit unseres Ansatzes und belegen eine vergleichbare Leistung mit den aktuellen Stand der Technik. Der Quellcode ist unter https://github.com/cswluo/SEF verfügbar.