Semantische Szenenkompletierung durch Integration von Instanzen und Szenen im Schleifenprozess

Die semantische Szenenkomplettierung zielt darauf ab, eine vollständige 3D-Szene mit präziser voxelweise Semantik aus einem einzigen Tiefen- oder RGBD-Bild zu rekonstruieren. Dies stellt eine entscheidende, jedoch herausfordernde Aufgabe für das Verständnis von Innenräumen dar. In dieser Arbeit präsentieren wir einen neuen Ansatz namens Scene-Instance-Scene-Netzwerk (\textit{SISNet}), der sowohl instanz- als auch szeneübergreifende semantische Informationen nutzt. Unser Verfahren ist in der Lage, fein strukturierte Formdetails sowie benachbarte Objekte zu erkennen, deren semantische Kategorien leicht verwechselt werden können. Der zentrale Ansatz besteht darin, die Instanzen aus einer grob rekonstruierten semantischen Szene statt aus dem rohen Eingabebild zu entkoppeln, um die Rekonstruktion der Instanzen und der Gesamtszene zu leiten. SISNet führt eine iterative semantische Komplettierung von Szene zu Instanz (SI) und von Instanz zu Szene (IS) durch. Insbesondere ermöglicht die SI-Phase die Kodierung der Umgebungskontexte von Objekten, um Instanzen effektiv aus der Szene zu entkoppeln, während jede Instanz in höherer Auflösung voxelisiert werden kann, um feinere Details zu erfassen. Mittels IS wird die detaillierte Instanzinformation wieder in die 3D-Szene integriert, was zu einer genaueren semantischen Szenenkomplettierung führt. Durch diese iterative Mechanik profitieren sich Szenen- und Instanzkomplettierung gegenseitig und erreichen eine höhere Genauigkeit. Umfangreiche Experimente zeigen, dass unsere Methode sowohl auf den realen Datensätzen NYU und NYUCAD als auch auf dem synthetischen SUNCG-RGBD-Datensatz konsistent die besten Ergebnisse im Vergleich zu aktuellen State-of-the-Art-Verfahren erzielt. Der Quellcode und die ergänzenden Materialien werden unter \url{https://github.com/yjcaimeow/SISNet} verfügbar sein.