vor 17 Tagen

RADAM: Texturerkennung durch randomisierte aggregierte Kodierung tiefer Aktivierungskarten

Leonardo Scabini, Kallil M. Zielinski, Lucas C. Ribas, Wesley N. Gonçalves, Bernard De Baets, Odemir M. Bruno

Abstract

Die Texturanalyse ist eine klassische, jedoch herausfordernde Aufgabe im Bereich des Computersehens, für die aktuell tiefgreifende neuronale Netzwerke intensiv eingesetzt werden. Die meisten Ansätze basieren auf der Entwicklung von Feature-Aggregation-Modulen um einen vortrainierten Hauptnetzwerk (backbone) herum, gefolgt von einer Feinabstimmung (fine-tuning) der neuen Architektur auf spezifische Texturerkennungsaufgaben. In diesem Beitrag stellen wir eine neue Methode vor, die wir \textbf{R}andom encoding of \textbf{A}ggregated \textbf{D}eep \textbf{A}ctivation \textbf{M}aps (RADAM) nennen, die reichhaltige Texturrepräsentationen extrahiert, ohne jemals den Hauptnetzwerk zu verändern. Die Methode besteht darin, die Ausgaben eines vortrainierten tiefen convolutionalen Netzwerks auf verschiedenen Tiefen mithilfe eines Randomized Autoencoders (RAE) zu kodieren. Der RAE wird lokal für jedes Bild mittels einer geschlossenen Lösung trainiert, und seine Decoder-Gewichte werden verwendet, um eine eindimensionale Texturrepräsentation zu konstruieren, die anschließend in einen linearen SVM eingespeist wird. Dies bedeutet, dass kein Feinabstimmungsschritt oder Rückpropagation erforderlich ist. Wir evaluieren RADAM an mehreren Texturbenchmarks und erzielen dabei state-of-the-art Ergebnisse unter unterschiedlichen Rechenaufwänden. Unsere Ergebnisse deuten darauf hin, dass vortrainierte Hauptnetzwerke möglicherweise keine zusätzliche Feinabstimmung für die Texturerkennung erfordern, wenn ihre gelernten Repräsentationen effizienter kodiert werden können.