Effiziente mehraufgabenbasierte RGB-D-Szenenanalyse für Innenräume

Die semantische Szenenverstehens ist für mobile Agenten, die in unterschiedlichen Umgebungen agieren, von entscheidender Bedeutung. Obwohl die semantische Segmentierung bereits eine Fülle von Informationen liefert, fehlen Details zu einzelnen Objekten sowie eine umfassende Szenenbeschreibung, die für zahlreiche Anwendungen in der Praxis erforderlich sind. Die Lösung mehrerer Aufgaben getrennt voneinander ist jedoch kostspielig und kann auf mobilen Plattformen mit begrenzter Rechenleistung und Batteriekapazität nicht in Echtzeit erreicht werden. In diesem Artikel präsentieren wir einen effizienten Multi-Task-Ansatz für die RGB-D-Szenenanalyse (EMSANet), der gleichzeitig semantische und instanzbasierte Segmentierung (Panoptic Segmentierung), die Schätzung der Instanzorientierung sowie die Szenenklassifikation durchführt. Wir zeigen, dass alle Aufgaben mit einem einzigen neuronalen Netzwerk in Echtzeit auf einer mobilen Plattform bewältigt werden können, ohne die Leistung zu beeinträchtigen – im Gegenteil: die einzelnen Aufgaben profitieren voneinander. Um unseren Multi-Task-Ansatz zu evaluieren, erweitern wir die Annotationen der gängigen RGB-D-Innenraum-Datensätze NYUv2 und SUNRGB-D um Informationen für die Instanzsegmentierung und die Orientierungsschätzung. Sofern uns bekannt ist, sind wir die Ersten, die Ergebnisse in einem derart umfassenden Multi-Task-Kontext für die Innenraum-Szenenanalyse auf NYUv2 und SUNRGB-D vorlegen.