ScanQA: 3D 공간 장면 이해를 위한 질문 응답

우리는 새로운 3차원 공간 이해 작업인 3차원 질문 응답 (3D-QA)을 제안합니다. 3D-QA 작업에서 모델은 풍부한 RGB-D 실내 스캔의 전체 3차원 장면에서 시각적 정보를 받아 해당 3차원 장면에 대한 주어진 텍스트 질문에 답합니다. VQA의 2차원 질문 응답과 달리, 기존의 2D-QA 모델들은 객체 정렬 및 방향에 대한 공간 이해 문제로 인해 텍스트 질문에서 객체를 식별하는 데 실패합니다. 우리는 이러한 문제를 해결하기 위해 ScanQA 모델이라는 이름의 3D-QA 기준 모델을 제안합니다. 이 모델은 3차원 객체 제안과 인코딩된 문장 임베딩으로부터 융합된 설명자를 학습합니다. 이 학습된 설명자는 언어 표현을 3차원 스캔의 기하학적 특성과 연관시키고, 텍스트 질문에서 설명된 객체를 결정하기 위한 3차원 바운딩 박스 회귀를 용이하게 하여 올바른 답변을 출력합니다.우리는 각 3차원 장면에서 3차원 객체에 근거한 자유형식의 답변이 포함된 인간 편집 질문-답변 쌍을 수집했습니다. 우리의 새로운 ScanQA 데이터셋은 ScanNet 데이터셋에서 추출한 800개의 실내 장면으로부터 약 4만 개 이상의 질문-답변 쌍을 포함하고 있습니다. 우리 지식范围内, 제안된 3D-QA 작업은 3차元 환경에서 객체 근거 질문-답변을 수행하는 첫 번째 대규모 시도입니다.注: "範圍内" 这个中文词汇在韩文中应为 "범위 내", 因此最后一句正确的翻译应该是:"우리 지식 범위 내에서, 제안된 3D-QA 작업은 3차원 환경에서 객체 근거 질문-답변을 수행하는 첫 번째 대규모 시도입니다."