HyperAIHyperAI
vor 18 Tagen

Lernen eines Multi-Attention Convolutional Neural Network für die feinkörnige Bilderkennung

{Jiebo Luo, Jianlong Fu, Heliang Zheng, Tao Mei}
Lernen eines Multi-Attention Convolutional Neural Network für die feinkörnige Bilderkennung
Abstract

Die Erkennung feinabgestufter Kategorien (z. B. Vogelarten) beruht stark auf der diskriminativen Lokalisierung von Teilen und der teilspezifischen feinabgestuften Merkmalslernung. Bestehende Ansätze lösen diese Herausforderungen überwiegend unabhängig voneinander, wobei jedoch übersehen wird, dass die Teillokalisierung (z. B. Kopf eines Vogels) und die feinabgestufte Merkmalslernung (z. B. Kopfform) wechselseitig korreliert sind. In diesem Artikel stellen wir einen neuen Ansatz zum Teillernen vor, basierend auf einem Multi-Attention-Convolutional Neural Network (MA-CNN), bei dem die Teilgenerierung und die Merkmalslernung sich gegenseitig verstärken. MA-CNN besteht aus drei Unternetzen: einem Convolution-Netzwerk, einem Kanalgruppierungs-Netzwerk und einem Teilklassifizierungs-Netzwerk. Das Kanalgruppierungs-Netzwerk verarbeitet Merkmalskanäle aus konvolutionellen Schichten und generiert mehrere Teile durch Clustering, Gewichtung und Pooling räumlich korrelierter Kanäle. Das Teilklassifizierungs-Netzwerk klassifiziert anschließend das Bild jeweils anhand einzelner Teile, wodurch diskriminativere feinabgestufte Merkmale erlernt werden können. Zwei Verlustfunktionen werden vorgeschlagen, um den mehrfachen Lernprozess der Kanalgruppierung und Teilklassifizierung zu leiten, wodurch MA-CNN angeregt wird, diskriminativere Teile aus den Merkmalskanälen zu generieren und gleichzeitig bessere feinabgestufte Merkmale aus diesen Teilen auf wechselseitig unterstützende Weise zu erlernen. MA-CNN benötigt keine Bounding-Box- oder Teilannotierungen und kann end-to-end trainiert werden. Wir integrieren die aus MA-CNN gelernten Teile mit dem Part-CNN für die Klassifikation und zeigen die besten Ergebnisse auf drei anspruchsvollen veröffentlichten feinabgestuften Datensätzen, darunter CUB-Birds, FGVC-Aircraft und Stanford-Cars.