11일 전

최종 레이어를 넘어서: 에이전트 보간 초기화를 활용한 계층적 쿼리 융합 트랜스포머를 통한 3D 인스턴스 세그멘테이션

Jiahao Lu, Jiacheng Deng, Tianzhu Zhang
최종 레이어를 넘어서: 에이전트 보간 초기화를 활용한 계층적 쿼리 융합 트랜스포머를 통한 3D 인스턴스 세그멘테이션
초록

3D 인스턴스 세그멘테이션은 장면 내 객체 인스턴스의 집합을 예측하고, 해당 객체를 이진 전경 마스크와 관련된 의미적 레이블로 표현하는 것을 목표로 한다. 현재 트랜스포머 기반의 방법들이 그 우아한 처리 흐름, 기하학적 특성에 대한 수동적 선택 감소, 그리고 뛰어난 성능으로 인해 점점 더 많은 주목을 받고 있다. 그러나 트랜스포머 기반의 방법은 쿼리 초기화 과정에서 위치 정보와 콘텐츠 정보를 동시에 강하게 유지하지 못하는 문제가 있다. 게다가 디코더의 각 레이어에서의 감독이 존재함에 따라, 레이어가 깊어질수록 객체가 사라지는 현상이 발생한다. 이러한 과제를 극복하기 위해, 우리는 3D 인스턴스 세그멘테이션을 위한 '최종 레이어를 넘어서기: 에이전트 보간 초기화를 통한 계층적 쿼리 융합 트랜스포머(BFL)'를 제안한다. 구체적으로, 전경 커버리지와 콘텐츠 학습 사이의 균형을 달성할 수 있는 강건한 쿼리를 생성하기 위해 에이전트 보간 초기화 모듈을 설계하였다. 또한, 레이어가 깊어질수록 재현율(recall)이 감소하는 문제를 완화하기 위해, 낮은 오버랩 쿼리를 유지할 수 있도록 계층적 쿼리 융합 디코더를 제안하였다. ScanNetV2, ScanNet200, ScanNet++ 및 S3DIS 데이터셋에서 실시한 광범위한 실험을 통해 BFL이 우수한 성능을 발휘함을 입증하였다.

최종 레이어를 넘어서: 에이전트 보간 초기화를 활용한 계층적 쿼리 융합 트랜스포머를 통한 3D 인스턴스 세그멘테이션 | 최신 연구 논문 | HyperAI초신경