3D-R1: Verbesserung des Schließens in 3D-VLMs für eine integrierte Szenenverstehens

Große Vision-Sprache-Modelle (VLMs) haben erhebliche Fortschritte bei Aufgaben des 2D-Visualverstehens erzielt und haben so das Interesse geweckt, diese Fähigkeiten auf das 3D-Szenenverstehen auszudehnen. Allerdings leiden derzeitige 3D-VLMs häufig an einer eingeschränkten Robustheit und Generalisierbarkeit, was auf die begrenzte Verfügbarkeit hochwertiger räumlicher Daten sowie auf die statische Natur der Blickwinkelannahmen zurückzuführen ist. Um diesen Herausforderungen zu begegnen, stellen wir 3D-R1 vor, ein Fundamentmodell, das die Schlussfolgerungsfähigkeiten von 3D-VLMs verbessert. Konkret erstellen wir zunächst einen hochwertigen synthetischen Datensatz mit „Chain-of-Thought“ (CoT), namens Scene-30K, indem wir bestehende 3D-VL-Datensätze sowie eine Daten-Engine basierend auf Gemini 2.5 Pro nutzen. Dieser Datensatz dient als kaltgestartete Initialisierungsdatenquelle für 3D-R1. Darüber hinaus nutzen wir im Prozess des Verstärkungslernens eine RLHF-Politik wie GRPO, um die Schlussfolgerungsfähigkeiten zu stärken, und führen drei Belohnungsfunktionen ein: eine Wahrnehmungsbelohnung, eine semantische Ähnlichkeitsbelohnung und eine Formatbelohnung, um sowohl die Detektionsgenauigkeit als auch die semantische Präzision der Antworten zu gewährleisten. Zudem stellen wir eine dynamische Ansichtsauswahlstrategie vor, die adaptiv die informativsten Perspektiven für das 3D-Szenenverstehen auswählt. Umfangreiche Experimente zeigen, dass 3D-R1 im Durchschnitt eine Verbesserung um 10 % auf verschiedenen 3D-Szenen-Benchmarks erzielt, was die Wirksamkeit des Modells zur Verbesserung von Schlussfolgerung und Generalisierung im 3D-Szenenverstehen unterstreicht. Code: https://github.com/AIGeeksGroup/3D-R1. Webseite: https://aigeeksgroup.github.io/3D-R1.