2달 전

2D와 3D 시각적 질문 응답 간의 격차 해소: 3D VQA를 위한 융합 접근법

Mo, Wentao ; Liu, Yang
2D와 3D 시각적 질문 응답 간의 격차 해소: 3D VQA를 위한 융합 접근법
초록

3차원 시각 질문 응답(3D VQA)에서 완전 주석화된 데이터의 부족과 시각적 콘텐츠 다양성의 제한으로 인해 새로운 장면과 3차원 개념(e.g., ScanQA와 SQA 데이터셋에서는 약 800개의 장면만이 활용됨)에 대한 일반화가 방해받고 있습니다. 현재 접근 방식은 2D 정보를 보완하여 3D 추론을 수행하려고 하지만, 이러한 방법들은 과도하게 복잡하고 때로는 질문과 무관한 시각적 단서를 도입하는 상위 2D 뷰를 사용하거나, 2D VLMs로부터 전역적으로 집계된 장면/이미지 수준 표현을 의존하여 세부적인 시각-언어 연관성을 잃는 등의 문제를 안고 있습니다. 이러한 한계를 극복하기 위해, 우리 접근 방식은 질문 조건부 2D 뷰 선택 절차를 이용하여 중요한 시각적 단서에 대한 의미적으로 관련된 2D 입력을 정확히 지정합니다. 그런 다음 이 2D 지식을 두 가지 분기 구조를 가진 트랜스포머 구조를 통해 3D-VQA 시스템에 통합합니다. 이 구조는 쌍둥이 트랜스포머(Twin-Transformer) 설계를 특징으로 하여, 2D와 3D 모드를 효율적으로 결합하고 모드 간의 세부적인 연관성을 포착하여 서로 상호 보완할 수 있도록 합니다. 위에서 제안한 메커니즘들을 통합하여, 우리는 BridgeQA를 소개합니다. BridgeQA는 3D-VQA에 대한 다중 모달 트랜스포머 기반 아키텍처에 새로운 관점을 제공합니다. 실험 결과, BridgeQA가 3D-VQA 데이터셋에서 최신 기술(state-of-the-art) 성능을 달성하며 기존 솔루션들보다 크게 우수함을 입증하였습니다. 코드는 $\href{https://github.com/matthewdm0816/BridgeQA}{\text{이 URL}}$에서 확인할 수 있습니다.

2D와 3D 시각적 질문 응답 간의 격차 해소: 3D VQA를 위한 융합 접근법 | 최신 연구 논문 | HyperAI초신경