Open-YOLO 3D: Auf dem Weg zu schneller und genauer Open-Vocabulary-3D-Instanzsegmentierung

Kürzliche Arbeiten im Bereich der offenen Vokabular-3D-Instanzsegmentierung zeigen großes Potenzial, gehen aber mit langsamen Inferenzgeschwindigkeiten und hohen Rechenanforderungen einher. Diese hohen Rechenkosten sind in der Regel auf die starke Abhängigkeit von 3D-Clip-Funktionen zurück, die für die mehrsichtige Aggregation in 3D rechenaufwändige 2D-Basismodelle wie Segment Anything (SAM) und CLIP erfordern. Als Folge davon wird ihre Anwendbarkeit in vielen realen Anwendungsfällen, die sowohl schnelle als auch genaue Vorhersagen benötigen, eingeschränkt. Um dieses Problem zu lösen, schlagen wir einen schnellen und dennoch genauen Ansatz zur offenen Vokabular-3D-Instanzsegmentierung vor, den wir Open-YOLO 3D nennen. Dieser Ansatz nutzt effektiv nur 2D-Objekterkennung aus mehrsichtigen RGB-Bildern für die offene Vokabular-3D-Instanzsegmentierung. Wir bearbeiten diese Aufgabe durch die Generierung von klassenunabhängigen 3D-Masken für Objekte in der Szene und deren Zuordnung zu Textanweisungen. Wir stellen fest, dass die Projektion von klassenunabhängigen 3D-Punktewolkeninstanzen bereits Instanzinformationen enthält; daher könnte die Verwendung von SAM lediglich Redundanz verursachen, die die Inferenzzeit unnötig verlängert. Wir finden empirisch heraus, dass eine bessere Leistung bei der Zuordnung von Textanweisungen zu 3D-Masken mit einem 2D-Objekterkennungsmodell schneller erreicht werden kann. Wir überprüfen unser Open-YOLO 3D anhand zweier Benchmarks, ScanNet200 und Replica, unter zwei Szenarien: (i) mit Ground-Truth-Masken, bei denen für gegebene Objektvorschläge Labels erforderlich sind, und (ii) mit klassenunabhängigen 3D-Vorschlägen, die durch ein 3D-Vorschlagsnetzwerk generiert wurden. Unser Open-YOLO 3D erreicht den aktuellen Stand der Technik auf beiden Datensätzen und erhöht gleichzeitig die Geschwindigkeit um bis zu etwa das 16-fache im Vergleich zum besten bisher bekannten Verfahren in der Literatur. Auf dem ScanNet200 Validierungsdatensatz erreicht unser Open-YOLO 3D eine mittlere Durchschnittsgenauigkeit (mAP) von 24,7 % bei einer Bearbeitungszeit von 22 Sekunden pro Szene. Der Quellcode und das Modell sind unter github.com/aminebdj/OpenYOLO3D verfügbar.