11일 전

SQA3D: 3차원 장면 내 위치 기반 질문 응답

Xiaojian Ma, Silong Yong, Zilong Zheng, Qing Li, Yitao Liang, Song-Chun Zhu, Siyuan Huang
SQA3D: 3차원 장면 내 위치 기반 질문 응답
초록

우리는 몸체화된 에이전트의 장면 이해 능력을 평가하기 위한 새로운 과제를 제안한다. 이를 '3D 장면 내 위치 기반 질문 응답(Situated Question Answering in 3D Scenes, SQA3D)'이라 한다. SQA3D는 3D 스캔과 같은 장면 맥락을 제공받은 에이전트가 먼저 텍스트로 설명된 3D 장면 내 자신의 위치, 방향 등 상황을 이해한 후, 해당 상황 하에서 주변 환경을 분석하고 질문에 답해야 하는 과제를 요구한다. 이 작업은 ScanNet에서 얻은 650개의 장면을 기반으로 하며, 6,800개의 고유한 상황을 중심으로 구성된 데이터셋을 제공한다. 해당 상황들에 대해 20,400개의 묘사 및 33,400개의 다양한 추론 질문이 포함되어 있다. 이 질문들은 공간 관계 이해부터 일반 지식 인식, 탐색 능력, 다단계 추론에 이르기까지 지능형 에이전트의 다양한 추론 능력을 평가하는 데 초점을 맞추고 있다. SQA3D는 현재의 다모달, 특히 3D 추론 모델에 큰 도전 과제를 제시한다. 다양한 최신 기술들을 평가한 결과, 가장 뛰어난 모델이라도 전반적인 점수는 47.20%에 그쳤으며, 비전문가 수준의 인간 참가자는 90.06%의 성과를 달성했다. 우리는 SQA3D가 향후 몸체화된 AI 연구에서 더 강력한 상황 이해 및 추론 능력을 갖춘 시스템 개발을 촉진할 수 있을 것이라고 믿는다.

SQA3D: 3차원 장면 내 위치 기반 질문 응답 | 최신 연구 논문 | HyperAI초신경