HyperAIHyperAI
vor 2 Monaten

Rekurrente Szenenanalyse mit Perspektivverstehen im Kreislauf

Shu Kong; Charless Fowlkes
Rekurrente Szenenanalyse mit Perspektivverstehen im Kreislauf
Abstract

Objekte können in perspektivischen Bildern einer Szene in beliebigen Größen erscheinen, was für Erkennungssysteme, die Bilder in einer festen Auflösung verarbeiten, eine Herausforderung darstellt. Wir schlagen ein tiefenbewusstes Gating-Modul vor, das die Pooling-Feldgröße in einem Faltungsnetzwerkarchitektur anhand der Objektgröße (umgekehrt proportional zur Tiefe) adaptiv auswählt. Dadurch werden kleine Details für ferne Objekte bewahrt, während größere Rezeptorfelder für nahegelegene Objekte verwendet werden. Das Tiefengating-Signal wird entweder durch Stereodiskrepanz oder direkt aus monoaularem Eingang geschätzt. Wir integrieren dieses tiefenbewusste Gating in ein rekurrentes Faltungsneuronales Netzwerk, um semantische Segmentierung durchzuführen. Unser rekurrentes Modul verfeinert die Segmentierungsergebnisse iterativ und nutzt dabei die Tiefen- und semantischen Vorhersagen aus den vorherigen Iterationen.Durch umfangreiche Experimente auf vier gängigen groß angelegten RGB-D-Datensätzen zeigen wir, dass dieser Ansatz wettbewerbsfähige Ergebnisse bei der semantischen Segmentierung erzielt, wobei das Modell erheblich kompakter ist. Wir führen eine detaillierte Analyse dieser Architektur durch, einschließlich Varianten, die auf monoaularen RGB-Bildern operieren, aber während des Trainings Tiefeninformation als Nebeninformation verwenden, unüberwachtes Gating als generisches Aufmerksamkeitsmechanismus sowie mehrfache Auflösungen beim Gating. Wir stellen fest, dass das geregte Pooling für die gemeinsame semantische Segmentierung und Tiefe zu Stand der Technik führende Ergebnissen bei der quantitativen monoaularen Tiefenschätzung führt.