HyperAIHyperAI

Command Palette

Search for a command to run...

OpenIns3D: Snap und Lookup für die 3D Offenvokabular-Instanzsegmentierung

Zhening Huang Xiaoyang Wu Xi Chen Hengshuang Zhao Lei Zhu Joan Lasenby

Zusammenfassung

In dieser Arbeit stellen wir OpenIns3D vor, ein neues Framework, das ausschließlich 3D-Eingaben für die 3D offene Vokabularszenerkenntnis verwendet. Das OpenIns3D-Framework setzt ein "Mask-Snap-Lookup"-Verfahren ein. Das "Mask"-Modul lernt klassenunabhängige Maskenvorschläge in 3D-Punktwolken, während das "Snap"-Modul synthetische Szenenbilder auf mehreren Skalen erzeugt und 2D Sehen-Sprache-Modelle nutzt, um interessante Objekte zu extrahieren. Das "Lookup"-Modul durchsucht die Ergebnisse des "Snap"-Moduls, um Kategorienamen den vorgeschlagenen Masken zuzuweisen. Dieser Ansatz, obwohl einfach, erreicht den aktuellen Stand der Technik in einer Vielzahl von 3D offenen Vokabularaufgaben, einschließlich Erkennung, Objekterkennung und Instanzsegmentierung sowohl in Innenraum- als auch in Außendatensätzen. Zudem ermöglicht OpenIns3D eine nahtlose Wechsel zwischen verschiedenen 2D-Detektoren ohne erneutes Training. Wenn es mit leistungsstarken 2D offenen Weltmodellen integriert wird, erzielt es ausgezeichnete Resultate bei Szenenverstehenaufgaben. Darüber hinaus zeigt sich OpenIns3D in Verbindung mit LLM-gestützten 2D-Modellen eine beeindruckende Fähigkeit zur Verarbeitung hochkomplexer Textanfragen, die feine Schlussfolgerungen und Wissen aus der realen Welt erfordern. Projektseite: https://zheninghuang.github.io/OpenIns3D/


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp