HyperAIHyperAI
vor 11 Tagen

DINO im Raum: Nutzung von 2D-Grundmodellen für die 3D-Segmentierung

Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe
DINO im Raum: Nutzung von 2D-Grundmodellen für die 3D-Segmentierung
Abstract

Vision-Grundmodellen (Vision Foundation Models, VFMs), die auf großskaligen Bilddatensätzen trainiert wurden, liefern hochwertige Merkmale, die die 2D-Visualisierungserkennung erheblich vorangebracht haben. Dennoch bleibt ihr Potenzial für die 3D-Vision weitgehend ungenutzt, obwohl 2D-Bilder gemeinsam mit 3D-Punktwolken-Datensätzen häufig verfügbar sind. Obwohl erhebliche Forschungsanstrengungen in die 2D-3D-Fusion investiert wurden, konzentrieren sich aktuelle State-of-the-Art-Methoden für 3D-Vision vorwiegend auf 3D-Daten, wodurch die Integration von VFMs in 3D-Modelle bisher untererforscht bleibt. In dieser Arbeit stellen wir diesen Trend in Frage und führen DITR ein – einen einfachen, aber effektiven Ansatz, der Merkmale aus 2D-Grundmodellen extrahiert, diese auf 3D projiziert und schließlich in ein 3D-Punktwolken-Segmentierungsmodell einfließen lässt. DITR erreicht state-of-the-art-Ergebnisse sowohl auf indoor- als auch auf outdoor-3D-Semantiksegmentierungsbenchmarks. Um die Nutzung von VFMs auch dann zu ermöglichen, wenn während der Inferenz keine Bilder verfügbar sind, schlagen wir zudem vor, 2D-Grundmodelle mittels Knowledge Distillation in einen 3D-Backbone zu übertragen, als Vortrainingsaufgabe. Durch die Initialisierung des 3D-Backbones mit Wissen, das aus 2D-VFMs distilliert wurde, schaffen wir eine starke Grundlage für nachgeschaltete 3D-Segmentierungsaufgaben und steigern letztendlich die Leistung auf verschiedenen Datensätzen signifikant.

DINO im Raum: Nutzung von 2D-Grundmodellen für die 3D-Segmentierung | Neueste Forschungsarbeiten | HyperAI