
우리는 3D 인스턴스를 의미적, 위치적, 형태적 정보를 인코딩하는 1차원 벡터로 표현하는 3D 인스턴스 표현 방식인 '인스턴스 커널(Instance Kernels)'을 제안한다. 인스턴스 커널을 통해 전체 장면에 걸쳐 커널을 단순 스캔하는 방식으로 마스크 추론이 가능해지며, 기존 3D 인스턴스 세그멘테이션 파이프라인에서 제안(proposal)이나 휴리스틱 클러스터링 알고리즘에 대한 강한 의존성을 피할 수 있다. 인스턴스 커널의 아이디어는 2D/3D 인스턴스 세그멘테이션 분야에서 최근 성공을 거둔 동적 컨볼루션(dynamic convolution)에서 영감을 받았다. 그러나 포인트 클라우드 데이터의 비정렬성과 비구조적 특성으로 인해 3D 인스턴스를 효과적으로 표현하는 것은 비 trivial한 과제임을 발견하였다. 예를 들어, 인스턴스의 정확한 위치 추정이 부족할 경우 인스턴스 표현의 품질이 크게 저하된다. 이를 보완하기 위해 우리는 새로운 3D 인스턴스 인코딩 패러다임을 제안한다. 먼저, 잠재적인 인스턴스 중심점을 후보로 식별하고, 이후 후보들을 동시에 융합하고 융합된 중심점 주변의 맥락 정보를 수집하여 인스턴스 커널을 형성하는 후보 융합 기법을 설계한다. 인스턴스 커널이 생성된 후에는 해당 커널에 조건부로 동작하는 동적 컨볼루션을 사용하여 인스턴스 마스크를 재구성할 수 있다. 전체 파이프라인은 동적 커널 네트워크(DKNet)로 구현되며, ScanNetV2 및 S3DIS 데이터셋에서 기존 최고 성능(SOTA) 모델들을 능가하는 성능을 보이며, 특히 인스턴스 위치 정확도 측면에서 우수한 성능을 나타낸다. 코드는 다음과 같이 공개되어 있다: https://github.com/W1zheng/DKNet.