Anisotrope Faltungsnetze für die 3D semantische Szenevervollständigung

Als vokselweise Beschriftungsaufgabe versucht die semantische Szenergänzung (SSC) gleichzeitig die Besetzung und semantischen Etiketten für eine Szene aus einem einzelnen Tiefen- und/oder RGB-Bild zu inferieren. Die Hauptausforderung bei der SSC besteht darin, effektiv den 3D-Kontext zu nutzen, um verschiedene Objekte oder Materialien mit starken Variationen in Form, Anordnung und Sichtbarkeit zu modellieren. Um solche Variationen zu bewältigen, schlagen wir ein neuartiges Modul vor, das als anisotrope Faltung bezeichnet wird, welches Flexibilität und Leistungsfähigkeit bietet, die für konkurrierende Methoden wie die Standard-3D-Faltung und einige ihrer Variationen unmöglich sind. Im Gegensatz zur Standard-3D-Faltung, die auf ein festes 3D-Rezeptivfeld beschränkt ist, kann unser Modul die dimensionsabhängige Anisotropie vokselweise modellieren. Das grundlegende Konzept besteht darin, eine anisotrope 3D-Rezeptivität durch Zerlegung einer 3D-Faltung in drei aufeinanderfolgende 1D-Faltungen zu ermöglichen, wobei die Kernelsize für jede dieser 1D-Faltungen dynamisch bestimmt wird. Durch Stapelung mehrerer solcher anisotroper Faltungsmoduln kann die vokselweise Modellierungsfähigkeit weiter verbessert werden, während gleichzeitig eine kontrollierbare Menge an Modellparametern beibehalten wird. Ausführliche Experimente auf zwei SSC-Benchmarks, NYU-Depth-v2 und NYUCAD, zeigen die überlegene Leistung der vorgeschlagenen Methode. Unser Code ist unter https://waterljwant.github.io/SSC/ verfügbar.