Komplementäre bidirektionale Merkmalskompression für die Innenraum-360°-Semantische Segmentierung mit Selbst-Distillation

Kürzlich haben horizontal orientierte, auf Darstellung basierende Ansätze zur panormatischen semantischen Segmentierung Projektionsbasierte Lösungen übertroffen, da Verzerrungen effektiv durch Kompression der sphärischen Daten in vertikaler Richtung entfernt werden können. Diese Methoden ignorieren jedoch die Verteilung der Verzerrungen und sind auf unbalancierte Empfindlichkeitsfelder beschränkt, beispielsweise ausreichende Empfindlichkeitsfelder in vertikaler, aber unzureichende in horizontaler Richtung. Im Gegensatz dazu kann eine in einer anderen Richtung komprimierte vertikale Darstellung implizite Verzerrungsvorwissen liefern und die horizontalen Empfindlichkeitsfelder erweitern. In diesem Paper kombinieren wir die beiden unterschiedlichen Darstellungsformen und schlagen eine neuartige Lösung für die 360°-semantische Segmentierung aus einer komplementären Perspektive vor. Unser Netzwerk besteht aus drei Modulen: einem Merkmalsextraktionsmodul, einem bidirektionalen Kompressionsmodul sowie einem Ensemble-Decodierungsmodul. Zunächst extrahieren wir mehrskalige Merkmale aus einer Panorama-Darstellung. Anschließend wird ein bidirektionales Kompressionsmodul entworfen, um die Merkmale in zwei komplementäre, niedrigdimensionale Darstellungen zu komprimieren, die sowohl Inhaltswahrnehmung als auch Verzerrungsvorwissen bereitstellen. Um die Fusion der bidirektionalen Merkmale zu erleichtern, entwickeln wir im Ensemble-Decodierungsmodul eine spezielle Selbst-Distillation-Strategie, um die Interaktion zwischen den verschiedenen Merkmalen zu verstärken und die Leistung weiter zu verbessern. Experimentelle Ergebnisse zeigen, dass unsere Methode die derzeit besten Lösungen bei quantitativen Bewertungen um mindestens 10 % übertrifft und gleichzeitig die beste Leistung hinsichtlich visueller Qualität erzielt.