vor 13 Tagen

Raumliches Schließen mit visuell-sprachlichen Modellen in egozentrischen Multiview-Szenen

Mohsen Gholami Ahmad Rezaei Zhou Weimin Yong Zhang Mohammad Akbari

Abstract

Die Verständnis von 3D-Raumbeziehungen bleibt eine zentrale Herausforderung aktueller Vision-Language-Modelle (VLMs). Bisherige Ansätze haben dieses Problem dadurch angegangen, dass sie räumliche Frage-Antwort-(QA)-Datensätze basierend auf Einzelbildern oder Innenraum-Videos erstellt haben. In der realen Welt stützen sich jedoch eingebettete KI-Agenten wie Roboter oder autonome Fahrzeuge typischerweise auf egozentrische, mehrsichtige Beobachtungen. Um diesem Aspekt Rechnung zu tragen, stellen wir Ego3D-Bench vor – eine neue Benchmark, die entwickelt wurde, um die räumliche Schlussfolgerungsfähigkeit von VLMs anhand egozentrischer, mehrsichtiger Außenraumdaten zu evaluieren. Ego3D-Bench umfasst über 8.600 QA-Paare, die mit erheblicher Beteiligung menschlicher Annotationen erstellt wurden, um Qualität und Vielfalt zu gewährleisten. Wir testen 16 state-of-the-art (SOTA) VLMs, darunter GPT-4o, Gemini 1.5-Pro, InternVL3 und Qwen2.5-VL. Unsere Ergebnisse zeigen eine signifikante Leistungslücke zwischen menschlichem Niveau und der Leistung der VLMs, was belegt, dass aktuelle VLMs nach wie vor hinter dem menschlichen räumlichen Verständnis zurückbleiben. Um diese Lücke zu schließen, schlagen wir Ego3D-VLM vor – einen post-training-Framework, der die 3D-räumliche Schlussfolgerungsfähigkeit von VLMs verbessert. Ego3D-VLM generiert eine kognitive Karte basierend auf geschätzten globalen 3D-Koordinaten und erreicht so eine durchschnittliche Verbesserung um 12 % bei multiple-choice-QA-Aufgaben und um 56 % bei der Schätzung absoluter Distanzen. Ego3D-VLM ist modular und kann nahtlos in beliebige bestehende VLMs integriert werden. Zusammen bieten Ego3D-Bench und Ego3D-VLM wertvolle Werkzeuge, um den Fortschritt hin zu einem menschlichen Niveau räumlichen Verständnisses in realen, mehrsichtigen Umgebungen zu fördern.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Raumliches Schließen mit visuell-sprachlichen Modellen in egozentrischen Multiview-Szenen

Mohsen Gholami Ahmad Rezaei Zhou Weimin Yong Zhang Mohammad Akbari

Abstract

KI mit KI entwickeln

Hyper Newsletters