Wenn CNNs auf zufällige RNNs treffen: Ein Weg hin zu einer mehrstufigen Analyse für die RGB-D-Objekt- und Szenenerkennung

Die Erkennung von Objekten und Szenen stellt zwei herausfordernde, jedoch essenzielle Aufgaben im Bereich des Bildverstehens dar. Insbesondere hat die Nutzung von RGB-D-Sensoren zur Bewältigung dieser Aufgaben in den letzten Jahren zu einem zentralen Forschungsfeld für eine verbesserte visuelle Wahrnehmung geführt. Gleichzeitig sind tiefe neuronale Netze, insbesondere konvolutionale neuronale Netze (CNNs), weit verbreitet geworden und werden vielfach für verschiedene visuelle Aufgaben eingesetzt, indem sie handgefertigte Merkmale durch effektive tiefe Merkmale ersetzen. Allerdings bleibt ein offenes Problem, wie man tiefen Merkmale aus einem mehrschichtigen CNN-Modell effektiv ausnutzen kann. In diesem Artikel präsentieren wir einen neuartigen zweistufigen Ansatz, der diskriminative Merkmalsrepräsentationen aus multimodalen RGB-D-Bildern für Aufgaben der Objekt- und Szenenerkennung extrahiert. Im ersten Stadium wird ein vortrainiertes CNN-Modell als Backbone eingesetzt, um visuelle Merkmale auf mehreren Ebenen zu extrahieren. Im zweiten Stadium werden diese Merkmale effizient durch eine vollständig zufällig strukturierte rekursive neuronale Netzwerkarchitektur (RNN) in hochdimensionale Repräsentationen abgebildet. Um der hohen Dimensionalität der CNN-Aktivierungen entgegenzuwirken, wird ein zufällig gewichteter Pooling-Ansatz vorgeschlagen, der die Idee der Zufälligkeit in RNNs erweitert. Die multimodale Fusion erfolgt über einen weichen Votings-Ansatz, bei dem die Gewichte basierend auf den individuellen Erkennungssicherheiten (d. h. SVM-Scores) der RGB- und der Tiefenströme separat berechnet werden. Dies führt zu konsistenten Klassenzuordnungen und verbessert die endgültige Klassifikationsleistung bei RGB-D-Aufgaben. Umfangreiche Experimente zeigen, dass die vollständig zufällige Struktur im RNN-Stadium die CNN-Aktivierungen erfolgreich in diskriminative, stabile Merkmale kodiert. Vergleichende Experimente auf den etablierten Datensätzen Washington RGB-D Object und SUN RGB-D Scene belegen, dass der vorgeschlagene Ansatz sowohl bei der Objekt- als auch bei der Szenenerkennung eine überlegene oder mindestens konkurrenzfähige Leistung im Vergleich zu aktuellen State-of-the-Art-Methoden erzielt. Der Quellcode ist unter https://github.com/acaglayan/CNN_randRNN verfügbar.