Command Palette
Search for a command to run...
OST-Bench: 온라인 공간-시간 장면 이해에서 MLLM의 능력 평가
OST-Bench: 온라인 공간-시간 장면 이해에서 MLLM의 능력 평가
JingLi Lin Chenming Zhu Runsen Xu Xiaohan Mao Xihui Liu Tai Wang Jiangmiao Pang
초록
최근 다중 모드 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 발전은 시각과 언어를 통합하여 복잡한 추론을 수행하는 데 뛰어난 능력을 보여주고 있습니다. 대부분의 기존 벤치마크는 사전 녹화된 입력 데이터의 고정된 세트를 사용하여 오프라인 환경에서 모델을 평가하지만, 우리는 주변 환경을 적극적으로 탐색하는 에이전트의 관점에서 온라인 공간-시간 이해(Online Spatio-Temporal understanding)를 평가하기 위해 OST-Bench라는 벤치마크를 소개합니다. 온라인 측면은 점진적으로 수집된 관찰 자료를 처리하고 추론해야 하는 필요성을 강조하며, 공간-시간 구성 요소는 현재 시각적 입력을 과거 기억과 통합하여 동적인 공간 추론을 지원해야 합니다. OST-Bench는 실제 세계에서 체험적인 인식에 대한 도전 과제를 더 잘 반영합니다.효율적인 데이터 수집 파이프라인을 기반으로 구축된 OST-Bench는 ScanNet, Matterport3D, ARKitScenes에서 수집된 1.4천 개의 장면과 1만 개의 질문-답변 쌍으로 구성되어 있습니다. 우리는 여러 선도적인 MLLM들을 OST-Bench에서 평가하였으며, 이들 모델이 복잡한 공간-시간 추론을 요구하는 작업에서는 부족함을 발견하였습니다. 온라인 환경에서는 탐색 범위가 확장되고 기억량이 증가함에 따라 정확도가 하락하였습니다. 추가 실험 분석을 통해 우리는 모델 간 공통적인 오류 패턴을 식별하였으며, 복잡한 단서 기반 공간 추론 요구사항과 장기 기억 검색 요구사항이 두 가지 다른 축에서 모델 성능을 크게 저하시키는 것을 확인하였습니다. 이는 온라인 체험적 추론을 개선하기 위해 해결해야 할 핵심 도전 과제들을 강조합니다.본 연구 분야에서 더 많은 연구와 개발을 촉진하기 위해, 우리의 코드, 데이터셋 및 벤치마크를 제공하고 있습니다. 프로젝트 페이지는 다음과 같습니다: https://rbler1234.github.io/OSTBench.github.io/