OVIR-3D: Offene-Wortschatz-3D-Instanzsuche ohne 3D-Datentraining

Diese Arbeit stellt OVIR-3D vor, eine einfache, aber effektive Methode zur offenvokabulären 3D-Objektinstanzretrieval ohne die Verwendung von 3D-Daten für das Training. Angesichts einer sprachlichen Abfrage ist das vorgeschlagene Verfahren in der Lage, eine sortierte Menge von 3D-Objektinstanzsegmenten basierend auf der Merkmalsähnlichkeit zwischen der Instanz und dem Textabfrage zurückzugeben. Dies wird durch eine mehrfach-sichtige Fusion von textausgerichteten 2D-Bereichsvorschlägen in den 3D-Raum erreicht, wobei das 2D-Bereichsvorschlagsnetzwerk 2D-Datensätze nutzen kann, die leichter zugänglich und in der Regel größer als 3D-Datensätze sind. Der vorgeschlagene Fusionsprozess ist effizient, da er für die meisten Indoor-3D-Szenen in Echtzeit durchgeführt werden kann und kein zusätzliches Training im 3D-Raum erfordert. Experimente mit öffentlichen Datensätzen und einem echten Roboter zeigen die Effektivität des Verfahrens sowie dessen Potenzial für Anwendungen in der Roboternavigation und -manipulation.