HyperAIHyperAI
vor 16 Tagen

Variational Context-Deformable ConvNets für die Indoor-Szenenanalyse

{ Qi Wang, Nianhui Guo, Yuan Yuan, Zhitong Xiong}
Variational Context-Deformable ConvNets für die Indoor-Szenenanalyse
Abstract

Der Kontext ist für die semantische Segmentierung von Bildern von entscheidender Bedeutung. Insbesondere in Innenräumen, wo die Objektgrößen stark variieren, stellt der räumliche Kontext einen wichtigen Faktor zur Verbesserung der Segmentierungsgenauigkeit dar. Daher schlagen wir in diesem Artikel ein neuartiges variational context-deformable (VCD)-Modul vor, das adaptivere Empfindlichkeitsfelder auf strukturierte Weise lernt. Im Gegensatz zu herkömmlichen ConvNets, die für alle Pixel einen festen räumlichen Kontext verwenden, lernt das VCD-Modul ein deformierbares räumliches Kontextfeld unter Anleitung von Tiefeninformation: Die Tiefeninformation liefert Hinweise zur Identifizierung der tatsächlichen lokalen Nachbarschaften. Konkret werden adaptive Gauß-Kerne unter Anleitung multimodaler Informationen gelernt. Durch die Multiplikation der gelernten Gauß-Kerne mit herkömmlichen Faltfiltern kann das VCD-Modul während der Faltung flexiblen räumlichen Kontext für jeden Pixel aggregieren. Die Hauptbeiträge dieser Arbeit sind wie folgt: 1) Es wird ein neuartiges VCD-Modul vorgestellt, das lernbare Gauß-Kerne nutzt, um Merkmalslernen mit strukturiert adaptivem Kontext zu ermöglichen; 2) Es wird eine variational Bayes’sche probabilistische Modellierung zur Schätzung des VCD-Moduls eingeführt, die dessen Kontinuität und Stabilität erhöht; 3) Es wird ein perspektivenbewusstes Leitmodul entworfen, das multimodale Informationen für die RGB-D-Segmentierung effizient nutzt. Wir evaluieren den vorgeschlagenen Ansatz auf drei weit verbreiteten Datensätzen, wobei die Leistungssteigerung die Wirksamkeit der vorgeschlagenen Methode belegt.

Variational Context-Deformable ConvNets für die Indoor-Szenenanalyse | Neueste Forschungsarbeiten | HyperAI