vor 17 Tagen

Semantische Segmentierung einzelner Bilder unter Verwendung multimodaler sphärischer Bilder

Suresh Guttikonda, Jason Rambach

Abstract

In den letzten Jahren hat die Forschungsgemeinschaft großes Interesse an panoramischen Bildern gezeigt, die eine 360-Grad-Richtungsperspektive bieten. Verschiedene Datentypen können eingespeist werden, und komplementäre Eigenschaften können genutzt werden, um eine robuster und reichhaltiger Szeneninterpretation auf Basis der semantischen Segmentierung zu ermöglichen und das volle Potenzial zu erschließen. Die bisherige Forschung konzentrierte sich jedoch vorwiegend auf die semantische Segmentierung mit Pinhole-RGB-X-Daten. In dieser Studie schlagen wir eine auf Transformers basierende, multimodale Fusionsarchitektur vor, um die Lücke zwischen multimodaler Fusion und omnidirektionaler Szenenwahrnehmung zu schließen. Wir setzen modulare Ansätze ein, die Verzerrungen berücksichtigen, um extreme Objektverzerrungen und Panoramaverzerrungen zu behandeln, die durch die equirektanguläre Darstellung entstehen. Zudem führen wir cross-modale Interaktionen zur Merkmalskorrektur und Informationsaus tausch durch, bevor die Merkmale zusammengeführt werden, um langreichweitige Kontextinformationen für bi- und tri-modale Merkmalsströme zu übermitteln. In umfassenden Tests mit Kombinationen aus vier unterschiedlichen Modaltypen an drei Datensätzen mit Innenraum-Panoramabildern erzielte unsere Methode state-of-the-art mIoU-Werte: 60,60 % auf Stanford2D3DS (RGB-HHA), 71,97 % auf Structured3D (RGB-D-N) und 35,92 % auf Matterport3D (RGB-D). Wir planen, alle Codes und trainierten Modelle in Kürze freizugeben.