OpenIns3D: Snap und Lookup für die 3D Offenvokabular-Instanzsegmentierung

In dieser Arbeit stellen wir OpenIns3D vor, ein neues Framework, das ausschließlich 3D-Eingaben für die 3D offene Vokabularszenerkenntnis verwendet. Das OpenIns3D-Framework setzt ein "Mask-Snap-Lookup"-Verfahren ein. Das "Mask"-Modul lernt klassenunabhängige Maskenvorschläge in 3D-Punktwolken, während das "Snap"-Modul synthetische Szenenbilder auf mehreren Skalen erzeugt und 2D Sehen-Sprache-Modelle nutzt, um interessante Objekte zu extrahieren. Das "Lookup"-Modul durchsucht die Ergebnisse des "Snap"-Moduls, um Kategorienamen den vorgeschlagenen Masken zuzuweisen. Dieser Ansatz, obwohl einfach, erreicht den aktuellen Stand der Technik in einer Vielzahl von 3D offenen Vokabularaufgaben, einschließlich Erkennung, Objekterkennung und Instanzsegmentierung sowohl in Innenraum- als auch in Außendatensätzen. Zudem ermöglicht OpenIns3D eine nahtlose Wechsel zwischen verschiedenen 2D-Detektoren ohne erneutes Training. Wenn es mit leistungsstarken 2D offenen Weltmodellen integriert wird, erzielt es ausgezeichnete Resultate bei Szenenverstehenaufgaben. Darüber hinaus zeigt sich OpenIns3D in Verbindung mit LLM-gestützten 2D-Modellen eine beeindruckende Fähigkeit zur Verarbeitung hochkomplexer Textanfragen, die feine Schlussfolgerungen und Wissen aus der realen Welt erfordern. Projektseite: https://zheninghuang.github.io/OpenIns3D/