Lernen einer diskriminativen Filterbank innerhalb eines CNN für feingranulare Erkennung

Im Vergleich zu früheren mehrstufigen Frameworks, die CNN-Features verwenden, verbessern aktuelle end-to-end tiefere Ansätze für feingranulare Erkennung wesentlich die mittlere Lernfähigkeit von CNNs. Frühere Ansätze erreichen dies durch die Einführung eines Hilfsnetzes, das Lokalisierungsinformationen in das Hauptklassifikationsnetz einfließen lässt, oder durch eine anspruchsvolle Merkmalskodierungsmethode, um höhere Merkmalsstatistiken zu erfassen. Wir zeigen, dass die Lernfähigkeit der mittleren Darstellung innerhalb des CNN-Frameworks verbessert werden kann, indem man eine Bank von Faltungsfiltern lernt, die klassenspezifische diskriminierende Patchs ohne zusätzliche Teile- oder Begrenzungsboxen-Annotierungen erfasst. Eine solche Filterbank ist gut strukturiert, angemessen initialisiert und diskriminativ durch eine neuartige asymmetrische Mehrströmenarchitektur mit Faltungsfilterüberwachung und einer nicht-zufälligen Schichtinitialisierung gelernt. Experimentelle Ergebnisse zeigen, dass unser Ansatz den Stand der Technik auf drei öffentlich verfügbaren Datensätzen für feingranulare Erkennung (CUB-200-2011, Stanford Cars und FGVC-Aircraft) erreicht. Abstraktionsstudien und Visualisierungen werden bereitgestellt, um unseren Ansatz besser zu verstehen.