HyperAI초신경

VSI-Bench(Visual-Spatial Intelligence Benchmark)는 페이페이 리(Fei-Fei Li), 사이닝 셰(Sai-Ning Xie)와 그들의 연구팀이 2024년에 출시한 시각-공간 지능 벤치마크 테스트 세트입니다. 이 테스트의 목적은 공간 인지 및 이해에 있어 다중 모드 대규모 언어 모델(MLLM)의 능력을 평가하는 것입니다. 관련 논문 결과는 "공간에서의 사고: 다중 모드 대규모 언어 모델이 공간을 보고, 기억하고, 회상하는 방식". 이 데이터셋은 5천 개 이상의 질문-답변 쌍을 포함하고 있으며, 주거, 사무실, 공장 등 다양한 환경을 포함하는 약 290개의 실제 실내 장면 영상을 포함하고 있으며, 객체 인식, 위치 관계, 동작 예측 등 여러 문제를 다룹니다. 이러한 다양한 데이터 구조는 더욱 견고한 모델을 학습하는 데 도움이 될 뿐만 아니라 개발자에게 알고리즘 검증 및 최적화를 위한 풍부한 리소스를 제공합니다.

VSI-Bench 시각적 공간 지능 벤치마크