
초록
3차원 공간에서 복잡한 시각-언어 추론 작업을 수행할 수 있는 능력은 가정용 로봇 및 인간 중심의 몸체화된 인공지능(AI) 개발에 있어 중요한 전환점이 된다. 본 연구에서는 3차원 시각-언어 추론에서 중요한 독특한 과제로 '상황 인식(situational awareness)'을 제시한다. 이는 두 가지 핵심 요소를 포함한다: (1) 자율 에이전트가 언어 프롬프트를 기반으로 자신의 위치를 정확히 인식하는 것, (2) 계산된 위치에서의 관점에서 개방형 질문에 답변하는 것. 이러한 과제를 해결하기 위해, 우리는 3차원 시각-언어 추론을 위한 엔드투엔드의 상황 기반 모델인 SIG3D를 제안한다. SIG3D는 3차원 장면을 희소 복셀(sparse voxel) 표현으로 토큰화하고, 언어 기반의 상황 추정기(language-grounded situation estimator)를 제안한 후, 상황 기반 질문 응답 모듈을 도입한다. SQA3D 및 ScanQA 데이터셋에서 수행된 실험 결과, SIG3D는 상황 추정 및 질문 응답에서 최신 기술 대비 크게 우수한 성능을 보였다(예: 상황 추정 정확도에서 30% 이상의 향상). 후속 분석을 통해 아키텍처 설계의 타당성을 확인하고, 시각적 및 텍스트 토큰의 독특한 기능을 탐구하며, 3차원 질문 응답 분야에서 상황 인식의 중요성을 강조한다.