Command Palette
Search for a command to run...
Raumliches Schließen mit visuell-sprachlichen Modellen in egozentrischen Multiview-Szenen
Mohsen Gholami Ahmad Rezaei Zhou Weimin Yong Zhang Mohammad Akbari

Abstract
Die Verständnis von 3D-Raumbeziehungen bleibt eine zentrale Herausforderung aktueller Vision-Language-Modelle (VLMs). Bisherige Ansätze haben dieses Problem dadurch angegangen, dass sie räumliche Frage-Antwort-(QA)-Datensätze basierend auf Einzelbildern oder Innenraum-Videos erstellt haben. In der realen Welt stützen sich jedoch eingebettete KI-Agenten wie Roboter oder autonome Fahrzeuge typischerweise auf egozentrische, mehrsichtige Beobachtungen. Um diesem Aspekt Rechnung zu tragen, stellen wir Ego3D-Bench vor – eine neue Benchmark, die entwickelt wurde, um die räumliche Schlussfolgerungsfähigkeit von VLMs anhand egozentrischer, mehrsichtiger Außenraumdaten zu evaluieren. Ego3D-Bench umfasst über 8.600 QA-Paare, die mit erheblicher Beteiligung menschlicher Annotationen erstellt wurden, um Qualität und Vielfalt zu gewährleisten. Wir testen 16 state-of-the-art (SOTA) VLMs, darunter GPT-4o, Gemini 1.5-Pro, InternVL3 und Qwen2.5-VL. Unsere Ergebnisse zeigen eine signifikante Leistungslücke zwischen menschlichem Niveau und der Leistung der VLMs, was belegt, dass aktuelle VLMs nach wie vor hinter dem menschlichen räumlichen Verständnis zurückbleiben. Um diese Lücke zu schließen, schlagen wir Ego3D-VLM vor – einen post-training-Framework, der die 3D-räumliche Schlussfolgerungsfähigkeit von VLMs verbessert. Ego3D-VLM generiert eine kognitive Karte basierend auf geschätzten globalen 3D-Koordinaten und erreicht so eine durchschnittliche Verbesserung um 12 % bei multiple-choice-QA-Aufgaben und um 56 % bei der Schätzung absoluter Distanzen. Ego3D-VLM ist modular und kann nahtlos in beliebige bestehende VLMs integriert werden. Zusammen bieten Ego3D-Bench und Ego3D-VLM wertvolle Werkzeuge, um den Fortschritt hin zu einem menschlichen Niveau räumlichen Verständnisses in realen, mehrsichtigen Umgebungen zu fördern.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.