Der Teufel steckt im Kanal: Mutual-Channel-Loss für die feinkörnige Bildklassifikation

Der Schlüssel zur Lösung der feinkörnigen Bildkategorisierung liegt in der Identifizierung diskriminativer und lokaler Regionen, die subtile visuelle Merkmale widerspiegeln. In jüngster Zeit wurden erhebliche Fortschritte erzielt, indem komplexe Netzwerke speziell entwickelt wurden, um part-level diskriminative Merkmalsrepräsentationen zu lernen. In diesem Artikel zeigen wir, dass es möglich ist, subtile Details zu erfassen, ohne auf überkomplizierte Netzwerkarchitekturen oder Trainingsmechanismen zurückgreifen zu müssen – eine einzige Verlustfunktion genügt. Der zentrale Trick besteht darin, bereits frühzeitig in einzelne Merkmalskanäle einzudringen, im Gegensatz zur gängigen Praxis, die Analyse erst von einer konsolidierten Merkmalskarte aus zu starten. Die vorgeschlagene Verlustfunktion, die als Mutual-Channel-Loss (MC-Loss) bezeichnet wird, besteht aus zwei kanalbasierten Komponenten: einer Diskriminanzkomponente und einer Diversitätskomponente. Die Diskriminanzkomponente zwingt alle Merkmalskanäle derselben Klasse dazu, diskriminativ zu sein, unter Verwendung eines neuartigen kanalweisen Aufmerksamkeitsmechanismus. Die Diversitätskomponente ergänzt diese Einschränkung, indem sie sicherstellt, dass die Kanäle räumlich gegenseitig ausschließend werden. Das Ergebnis ist somit ein Satz von Merkmalskanälen, die jeweils unterschiedliche, lokal diskriminative Regionen für eine bestimmte Klasse widerspiegeln. Der MC-Loss kann end-to-end trainiert werden, benötigt keine Bounding-Box- oder Teilannotierungen und erzeugt während der Inferenz hochdiskriminative Regionen. Experimentelle Ergebnisse zeigen, dass der MC-Loss, wenn er auf gängige Basisnetzwerke aufgesetzt wird, auf allen vier feinkörnigen Kategorisierungsdatensätzen (CUB-Birds, FGVC-Aircraft, Flowers-102 und Stanford-Cars) die derzeit beste Leistung erzielt. Ablative Studien belegen zudem die Überlegenheit des MC-Loss im Vergleich zu anderen kürzlich vorgeschlagenen allgemeinen Verlustfunktionen für visuelle Klassifikation auf zwei unterschiedlichen Basisnetzwerken. Der Quellcode ist unter https://github.com/dongliangchang/Mutual-Channel-Loss verfügbar.