Bidirektionales Projektionsnetzwerk für die dimensionsübergreifende Szenenverstehens

Zweidimensionale Bildrepräsentationen befinden sich auf regelmäßigen Gittern und können effizient verarbeitet werden, während dreidimensionale Punktwolken ungeordnet und im dreidimensionalen Raum verteilt sind. Die Informationen in diesen beiden visuellen Domänen ergänzen sich hervorragend: So besitzen 2D-Bilder fein strukturierte Textur, während 3D-Punktwolken reichhaltige geometrische Informationen enthalten. Die meisten aktuellen visuellen Erkennungssysteme verarbeiten diese jedoch getrennt. In diesem Paper präsentieren wir ein \emph{bidirektionales Projektionsnetzwerk (BPNet)} zur gemeinsamen 2D- und 3D-Reasoning in einer end-to-end-Weise. Es besteht aus 2D- und 3D-Unternetzen mit symmetrischen Architekturen, die durch unseren vorgeschlagenen \emph{bidirektionalen Projektionsmodul (BPM)} verbunden sind. Mittels des \emph{BPM} können sich komplementäre Informationen aus 2D- und 3D-Domänen auf mehreren architektonischen Ebenen gegenseitig beeinflussen, sodass die Vorteile beider visueller Domänen kombiniert werden können, um eine verbesserte Szenenerkennung zu ermöglichen. Umfangreiche quantitative und qualitative experimentelle Bewertungen zeigen, dass die gemeinsame Verarbeitung von 2D- und 3D-visuellen Domänen sowohl die 2D- als auch die 3D-Szenenverstehensleistung gleichzeitig verbessert. Unser \emph{BPNet} erreicht auf der ScanNetV2-Benchmark für sowohl 2D- als auch 3D-Semantiksegmentierung Spitzenleistungen. Der Quellcode ist unter \url{https://github.com/wbhu/BPNet} verfügbar.