vor 16 Tagen

Semantikbewusste Szenenerkennung

Alejandro López-Cifuentes, Marcos Escudero-Viñolo, Jesús Bescós, Álvaro García-Martín

Abstract

Die Szenenerkennung ist derzeit eines der anspruchsvollsten Forschungsfelder im Bereich des Computersehens. Dies könnte darauf zurückzuführen sein, dass zwischen den Klassen eine Ambiguität besteht: Bilder mehrerer Szenenklassen können ähnliche Objekte enthalten, was zu Verwechslungen führt. Dieses Problem verschärft sich weiter, wenn Bilder einer bestimmten Szenenklasse erheblich voneinander abweichen. Convolutional Neural Networks (CNNs) haben die Leistung in der Szenenerkennung erheblich gesteigert, sind jedoch weiterhin deutlich hinter anderen Erkennungsaufgaben (z. B. Objekt- oder Bilderkennung) zurück. In diesem Paper beschreiben wir einen neuartigen Ansatz zur Szenenerkennung basierend auf einem end-to-end mehrmodalen CNN, der Bild- und Kontextinformationen mittels eines Aufmerksamkeitsmoduls kombiniert. Kontextinformationen in Form einer semantischen Segmentierung werden genutzt, um die aus dem RGB-Bild extrahierten Merkmale zu steuern, indem Informationen aus der semantischen Darstellung genutzt werden: die Menge an Szenenobjekten und „Stuff“ sowie deren relative Positionen. Dieser Steuerungsprozess stärkt das Lernen von charakteristischen Szeneninhalten und verbessert die Szenenunterscheidung, indem die Rezeptivfelder des CNNs neu auf diese Inhalte fokussiert werden. Experimentelle Ergebnisse auf vier öffentlich verfügbaren Datensätzen zeigen, dass der vorgeschlagene Ansatz jede andere state-of-the-art-Methode übertrifft, während gleichzeitig die Anzahl der Netzwerkparameter signifikant reduziert wird. Der gesamte Quellcode und die verwendeten Daten sind unter https://github.com/vpulab/Semantic-Aware-Scene-Recognition verfügbar.