Echtzeit gemeinsame semantische Segmentierung und Tiefenschätzung unter Verwendung asymmetrischer Annotationen

Die Bereitstellung von tiefen Lernmodellen in der Robotik als Sensoren-Informationsextraktoren kann eine herausfordernde Aufgabe sein, selbst bei Verwendung generischer GPU-Karten. In diesem Beitrag adressieren wir drei der wichtigsten Hürden: Erstens, die Anpassung eines einzelnen Modells, um gleichzeitig mehrere Aufgaben zu erfüllen (in dieser Arbeit betrachten wir die Tiefenschätzung und die semantische Segmentierung als entscheidend für das Erwerben geometrischer und semantischer Kenntnisse über die Szene), während es zweitens in Echtzeit erfolgt, und drittens unter Verwendung asymmetrischer Datensätze mit unterschiedlichen Anzahlen an Annotationen pro Modalität. Um die ersten beiden Probleme zu bewältigen, passen wir ein kürzlich vorgeschlagenes Echtzeitsystem zur semantischen Segmentierung an, indem wir Änderungen vornehmen, um die Anzahl der Gleitkommaoperationen weiter zu reduzieren. Für das dritte Problem greifen wir auf eine einfache Lösung basierend auf hartem Wissensdistillat zurück, unter der Annahme, dass Zugang zu einem leistungsfähigen „Teacher“-Netzwerk besteht. Wir demonstrieren, wie unser System leicht erweitert werden kann, um mehrere Aufgaben und Datensätze gleichzeitig zu bearbeiten, wobei sowohl Tiefenschätzung als auch Segmentierung sowohl im Innenraum als auch im Freien mit einem einzigen Modell durchgeführt werden können. Quantitativ erreichen wir Ergebnisse, die den aktuellen Stand der Technik entsprechen oder sogar übertreffen, wobei eine Vorwärtsdurchrechnung bei 640x480 Eingaben nur 13 ms und 6,5 GFLOPs kostet. Diese Effizienz ermöglicht es uns, die Rohvorhersagen unseres Netzwerks direkt in den SemanticFusion-Framework zur dichten 3D-semantischen Rekonstruktion der Szene zu integrieren.