Kanal-Interaktions-Netzwerke für feinkörnige Bildkategorisierung

Die feinkörnige Bildkategorisierung ist aufgrund der subtilen Unterschiede zwischen Klassen herausfordernd. Wir vermuten, dass die Ausnutzung der reichen Beziehungen zwischen Kanälen dabei helfen kann, solche Unterschiede zu erfassen, da verschiedene Kanäle unterschiedliche Semantik repräsentieren. In diesem Artikel stellen wir ein Kanal-Interaktions-Netzwerk (Channel Interaction Network, CIN) vor, das die wechselseitige Beeinflussung der Kanäle sowohl innerhalb eines Bildes als auch zwischen Bildern modelliert. Für ein einzelnes Bild wird ein selbstbezogener Kanal-Interaktions-Modul (Self-Channel Interaction, SCI) vorgeschlagen, um die Korrelationen zwischen Kanälen innerhalb des Bildes zu erforschen. Dadurch kann das Modell komplementäre Merkmale aus korrelierten Kanälen lernen und somit stärkere feinkörnige Merkmale erzeugen. Darüber hinaus führen wir für ein Bildpaar einen kontrastiven Kanal-Interaktions-Modul (Contrastive Channel Interaction, CCI) ein, der die zwischenbildliche Kanalinteraktion in einem metrischen Lernrahmen modelliert und es dem CIN ermöglicht, feine visuelle Unterschiede zwischen Bildern zu erkennen. Unser Modell lässt sich effizient in einer end-to-end-Weise trainieren, ohne dass ein mehrstufiger Trainings- und Testprozess erforderlich ist. Schließlich werden umfassende Experimente auf drei öffentlich verfügbaren Benchmarks durchgeführt, wobei die vorgeschlagene Methode konsistent die aktuellen State-of-the-Art-Ansätze wie DFL-CNN (Wang, Morariu und Davis 2018) und NTS (Yang et al. 2018) übertrifft.