HyperAIHyperAI
vor 17 Tagen

Lexicon3D: Untersuchung visueller Foundation Models zur komplexen 3D-Szenenverstehens

Man, Yunze, Zheng, Shuhong, Bao, Zhipeng, Hebert, Martial, Gui, Liang-Yan, Wang, Yu-Xiong
Lexicon3D: Untersuchung visueller Foundation Models zur komplexen 3D-Szenenverstehens
Abstract

Die Verständniskomplexität dreidimensionaler Szenen hat zunehmend an Aufmerksamkeit gewonnen, wobei Szenen-Encoder-Strategien eine entscheidende Rolle bei diesem Erfolg spielen. Dennoch sind die optimalen Szenen-Encoder-Strategien für verschiedene Anwendungsszenarien weiterhin unklar, insbesondere im Vergleich zu ihren bildbasierten Pendanten. Um dieses Problem anzugehen, präsentieren wir eine umfassende Studie, die verschiedene visuelle Encoder-Modelle für das Verständnis dreidimensionaler Szenen untersucht und die Stärken und Grenzen jedes Modells in unterschiedlichen Kontexten identifiziert. Unser Evaluationsrahmen umfasst sieben Vision-Foundation-Encoder, darunter bildbasierte, videobasierte und 3D-Foundation-Modelle. Diese Modelle werden in vier Aufgaben evaluiert: Vision-Sprache-Szenen-Reasoning, visuelle Grundlegung (Visual Grounding), Segmentierung und Registrierung, wobei jeweils unterschiedliche Aspekte des Szenenverstehens abgedeckt werden. Unsere Ergebnisse liefern wichtige Erkenntnisse: DINOv2 zeigt überlegene Leistung, videobasierte Modelle überzeugen bei objektbasierten Aufgaben, Diffusionsmodelle bringen Vorteile bei geometrischen Aufgaben, während sprachprätrainierte Modelle unerwartete Schwächen bei sprachbezogenen Aufgaben aufweisen. Diese Erkenntnisse stellen einige etablierte Vorstellungen in Frage, bieten neue Perspektiven auf die Nutzung visueller Foundation-Modelle und unterstreichen die Notwendigkeit flexiblerer Auswahlstrategien für Encoder in zukünftigen Aufgaben im Bereich Vision-Sprache und Szenenverstehen. Code: https://github.com/YunzeMan/Lexicon3D

Lexicon3D: Untersuchung visueller Foundation Models zur komplexen 3D-Szenenverstehens | Neueste Forschungsarbeiten | HyperAI