Interaktive Objektsegmentierung in 3D-Punktwolken

Wir schlagen einen interaktiven Ansatz für die 3D-Instanzsegmentierung vor, bei dem Benutzer iterativ mit einem tiefen Lernmodell zusammenarbeiten können, um Objekte in einer 3D-Punktwolke direkt zu segmentieren. Aktuelle Methoden zur 3D-Instanzsegmentierung werden im Allgemeinen vollständig überwacht trainiert, was große Mengen kostenintensiver Trainingslabels erfordert und eine schlechte Generalisierung auf Klassen ermöglicht, die während des Trainings nicht gesehen wurden. Nur wenige Arbeiten haben versucht, 3D-Segmentierungsmasken durch menschliche Interaktionen zu erhalten. Bestehende Methoden basieren auf Benutzerfeedback im Bereich der 2D-Bilder. Folglich müssen Benutzer ständig zwischen 2D-Bildern und 3D-Darstellungen wechseln, und es werden spezielle Architekturen eingesetzt, um mehrere Eingabemodalitäten zu kombinieren. Daher ist die Integration in bestehende Standard-3D-Modelle nicht einfach. Das Kernkonzept dieser Arbeit besteht darin, Benutzern das direkte Interagieren mit 3D-Punktwolken durch Anklicken gewünschter 3D-Objekte (oder deren Hintergrund) zu ermöglichen, um die Szene in einem offenen Weltsetting interaktiv zu segmentieren. Insbesondere erfordert unsere Methode keine Trainingsdaten aus irgendeinem Zielbereich und kann sich an neue Umgebungen anpassen, für die keine geeigneten Trainingsmengen verfügbar sind. Unser System passt die Objektsegmentierung kontinuierlich anhand des Benutzerfeedbacks an und erreicht präzise dichte 3D-Segmentierungsmasken mit minimalem menschlichen Aufwand (wenige Klicks pro Objekt). Neben dem Potenzial zur effizienten Beschriftung großer und vielfältiger 3D-Datensätze ermöglicht unser Ansatz, bei dem der Benutzer direkt mit der 3D-Umgebung interagiert, auch neue Anwendungen in AR/VR und Mensch-Roboter-Interaktion.