HyperAI
vor 16 Tagen

OST-Bench: Evaluation der Fähigkeiten von MLLMs im Online-Raum-Zeit-Szenenverstehen

JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang
OST-Bench: Evaluation der Fähigkeiten von MLLMs im Online-Raum-Zeit-Szenenverstehen
Abstract

Neuere Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben bemerkenswerte Fähigkeiten gezeigt, Vision und Sprache für komplexe Schlussfolgerungen zu integrieren. Während die meisten existierenden Benchmarks Modelle unter Offline-Bedingungen mit einem festen Satz voraufgezeichneter Eingaben bewerten, stellen wir OST-Bench vor, einen Benchmark, der entwickelt wurde, um das Online-Raum-Zeit-Verständnis aus der Perspektive eines Agenten zu evaluieren, der eine Szene aktiv erkundet. Der Online-Aspekt betont die Notwendigkeit, inkrementell erlangte Beobachtungen zu verarbeiten und darüber zu schlussfolgern, während das Raum-Zeit-Komponente das Integrieren aktueller visueller Eingaben mit historischem Gedächtnis erfordert, um dynamische räumliche Schlussfolgerungen zu unterstützen. OST-Bench spiegelt die Herausforderungen der realweltlichen verkörperten Wahrnehmung besser wider. Aufbauend auf einer effizienten Datenkollektionspipeline besteht OST-Bench aus 1.400 Szenen und 10.000 Frage-Antwort-Paaren, die aus ScanNet, Matterport3D und ARKitScenes gesammelt wurden. Wir evaluieren mehrere führende MLLMs auf OST-Bench und beobachten, dass sie bei Aufgaben, die komplexe raum-zeitliche Schlussfolgerungen erfordern, mangelhaft abschneiden. Unter den Online-Bedingungen nimmt ihre Genauigkeit ab, je weiter der Erkundungshorizont fortschreitet und das Gedächtnis wächst. Durch weitere experimentelle Analysen identifizieren wir übliche Fehlermuster über verschiedene Modelle hinweg und stellen fest, dass sowohl die Anforderungen an komplexes klue-basiertes räumliches Schlussfolgern als auch die Anforderungen an langfristiges Gedächtnisabruf signifikant die Leistung der Modelle entlang zweier separater Achsen verringern. Dies hebt die Kernherausforderungen hervor, die bewältigt werden müssen, um das Online-verkörperte Schlussfolgern zu verbessern. Um weitere Forschung und Entwicklung im Bereich zu fördern, sind unsere Codes, Datensatz und Benchmark verfügbar. Unsere Projektseite ist: https://rbler1234.github.io/OSTBench.github.io/