HyperAI초신경
16일 전

OST-Bench: 온라인 공간-시간 장면 이해에서 MLLM의 능력 평가

JingLi Lin, Chenming Zhu, Runsen Xu, Xiaohan Mao, Xihui Liu, Tai Wang, Jiangmiao Pang
OST-Bench: 온라인 공간-시간 장면 이해에서 MLLM의 능력 평가
초록

최근 다중 모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 발전은 시각과 언어를 통합하여 복잡한 추론을 수행하는 데 뛰어난 능력을 보여주고 있습니다. 대부분의 기존 벤치마크는 사전 녹화된 입력 데이터의 고정된 세트를 사용하여 오프라인 환경에서 모델을 평가하지만, 우리는 주변 환경을 적극적으로 탐색하는 에이전트의 관점에서 온라인 공간-시간 이해(Online Spatio-Temporal understanding)를 평가하기 위해 OST-Bench라는 벤치마크를 소개합니다. 온라인 측면은 점진적으로 수집된 관찰 자료를 처리하고 추론해야 하는 필요성을 강조하며, 공간-시간 구성 요소는 현재 시각적 입력을 과거 기억과 통합하여 동적인 공간 추론을 지원해야 합니다. OST-Bench는 실제 세계에서 체험적인 인식에 대한 도전 과제를 더 잘 반영합니다.효율적인 데이터 수집 파이프라인을 기반으로 구축된 OST-Bench는 ScanNet, Matterport3D, ARKitScenes에서 수집된 1.4천 개의 장면과 1만 개의 질문-답변 쌍으로 구성되어 있습니다. 우리는 여러 선도적인 MLLM들을 OST-Bench에서 평가하였으며, 이들 모델이 복잡한 공간-시간 추론을 요구하는 작업에서는 부족함을 발견하였습니다. 온라인 환경에서는 탐색 범위가 확장되고 기억량이 증가함에 따라 정확도가 하락하였습니다. 추가 실험 분석을 통해 우리는 모델 간 공통적인 오류 패턴을 식별하였으며, 복잡한 단서 기반 공간 추론 요구사항과 장기 기억 검색 요구사항이 두 가지 다른 축에서 모델 성능을 크게 저하시키는 것을 확인하였습니다. 이는 온라인 체험적 추론을 개선하기 위해 해결해야 할 핵심 도전 과제들을 강조합니다.본 연구 분야에서 더 많은 연구와 개발을 촉진하기 위해, 우리의 코드, 데이터셋 및 벤치마크를 제공하고 있습니다. 프로젝트 페이지는 다음과 같습니다: https://rbler1234.github.io/OSTBench.github.io/