Effiziente RGB-D-Semantische Segmentierung für die Analyse von Innenräumen

Die gründliche Analyse von Szenen ist entscheidend für mobile Roboter, die in unterschiedlichen Umgebungen agieren. Die semantische Segmentierung kann verschiedene nachfolgende Aufgaben verbessern, wie beispielsweise die (semantisch unterstützte) Personenwahrnehmung, die (semantische) Freiraumdetektion, die (semantische) Kartenerstellung und die (semantische) Navigation. In diesem Artikel stellen wir einen effizienten und robusten RGB-D-Segmentierungsansatz vor, der mittels NVIDIA TensorRT stark optimiert werden kann und daher ideal als gemeinsamer Vorverarbeitungsschritt in komplexen Systemen zur Szenenanalyse auf mobilen Robotern geeignet ist. Wir zeigen, dass die RGB-D-Segmentierung der reinen Verarbeitung von RGB-Bildern überlegen ist und dennoch in Echtzeit durchgeführt werden kann, sofern die Netzarchitektur sorgfältig entworfen wird. Wir evaluieren unseren vorgeschlagenen Efficient Scene Analysis Network (ESANet) anhand der gängigen Innenraum-Datensätze NYUv2 und SUNRGB-D und zeigen, dass wir state-of-the-art-Leistung erzielen, während gleichzeitig eine schnellere Inferenz ermöglicht wird. Darüber hinaus belegt unsere Evaluation am Außenraum-Datensatz Cityscapes, dass unser Ansatz auch für andere Anwendungsbereiche geeignet ist. Schließlich präsentieren wir neben reinen Benchmark-Ergebnissen auch qualitative Ergebnisse in einer unserer Innenraum-Anwendungsszenarien.