상태공간모델이 트랜스포머를 만나다: 3D 객체 탐지의 새로운 패러다임

DETR 기반의 방법들은 다층 트랜스포머 디코더를 사용하여 객체 쿼리를 반복적으로 개선함으로써 3D 실내 객체 탐지에서 유망한 성능을 보여왔다. 그러나 트랜스포머 디코더 내의 장면 포인트 특징은 고정된 상태를 유지하므로, 후속 디코더 레이어의 기여도가 미미하여 성능 향상에 한계가 있었다. 최근 상태공간 모델(State Space Models, SSM)은 시스템 상태와 입력 간의 반복적 상호작용을 통해 선형 복잡도로 효율적인 컨텍스트 모델링 능력을 보여주고 있다. SSM의 이러한 특징에 영감을 받아, 우리는 상호작용형 상태공간 모델(Interactive STate space model, DEST)을 활용한 새로운 3D 객체 탐지 프레임워크를 제안한다. 상호작용형 SSM에서는 시스템 상태가 3D 실내 탐지 작업에서 효과적인 쿼리로 작용할 수 있도록, 새로운 상태의존형 SSM 파라미터화 방법을 설계하였다. 또한 포인트 클라우드와 SSM의 특성에 맞춰 네 가지 핵심 설계를 도입하였다. 포인트 클라우드의 특성을 반영하기 위해 시리얼화 및 양방향 스캔 전략을 도입하여 SSM 내에서 장면 포인트 간의 양방향 특징 상호작용을 가능하게 하였으며, 상태 포인트 간의 관계를 모델링하기 위한 상태 간 주의 메커니즘과 채널 간 상관관계를 강화하는 게이트형 피드포워드 네트워크를 도입하였다. 본 연구는 최초로 쿼리를 시스템 상태로, 장면 포인트를 시스템 입력으로 모델링하는 방법을 제안하며, 선형 복잡도로 장면 포인트 특징과 쿼리 특징을 동시에 업데이트할 수 있다. 두 가지 도전적인 데이터셋에서 실시한 광범위한 실험을 통해 DEST 기반 방법의 효과성을 입증하였다. 제안한 방법은 ScanNet V2 (+5.3) 및 SUN RGB-D (+3.2) 데이터셋에서 GroupFree 기반 기준 모델에 비해 AP50 지표에서 우수한 성능을 달성하였으며, VDETR 기반 기준 모델에 기반하여 ScanNet V2 및 SUN RGB-D 데이터셋에서 새로운 최고 성능(SOTA)을 기록하였다.