SRRM: Semantic Region Relation Model für die Erkennung von Innenräumen

Trotz des bemerkenswerten Erfolgs von Faltungsneuralen Netzen bei verschiedenen Aufgaben im Bereich des maschinellen Sehens stellt die Erkennung von Innenräumen weiterhin eine erhebliche Herausforderung dar, bedingt durch ihre komplexe Struktur. Daher ist die effektive Nutzung semantischer Informationen innerhalb der Szene ein zentrales Problem bei der Weiterentwicklung der Erkennung von Innenräumen. Leider beschränkt die Genauigkeit der semantischen Segmentierung die Wirksamkeit bestehender Ansätze zur Nutzung semantischer Information. Folglich bleiben viele dieser Ansätze auf die Verwendung von Hilfslabels oder Ko-Occurrenz-Statistiken beschränkt, während wenige Ansätze die kontextuellen Beziehungen zwischen semantischen Elementen direkt innerhalb der Szene untersuchen. In diesem Paper stellen wir das Semantic Region Relationship Model (SRRM) vor, das direkt von der semantischen Information innerhalb der Szene ausgeht. Konkret verwendet SRRM einen adaptiven und effizienten Ansatz, um die negativen Auswirkungen semantischer Mehrdeutigkeit zu verringern, und modelliert anschließend die Beziehungen zwischen semantischen Regionen zur Szenerkennung. Zusätzlich kombinieren wir das vorgeschlagene SRRM mit dem PlacesCNN-Modul, um das Combined Semantic Region Relation Model (CSRRM) zu erstellen, und schlagen eine neuartige Informationskombinationsstrategie vor, um die komplementären Inhalte zwischen beiden Modulen effektiv auszunutzen. CSRRM übertrifft die State-of-the-Art-Methoden signifikant auf den Datensätzen MIT Indoor 67, reduziert Places365 und SUN RGB-D, ohne erneut trainiert zu werden. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/ChuanxinSong/SRRM