19일 전

Mask4D: LiDAR 시퀀스를 위한 엔드투엔드 마스크 기반 4D 패노픽 세그멘테이션

{Cyrill Stachniss, Jens Behley, Elias Marks, Louis Wiesmann, Lucas Nunes, Rodrigo Marcuzzi}
Mask4D: LiDAR 시퀀스를 위한 엔드투엔드 마스크 기반 4D 패노픽 세그멘테이션
초록

장면 이해는 자율 시스템이 실제 세계에서 신뢰할 수 있게 주행하기 위해 필수적인 요소이다. 3D LiDAR 스캔에 대한 패노픽 세그멘테이션은 각 3D 포인트에 대해 세밀한 클래스를 예측함으로써 차량 주변 환경을 의미론적으로 설명할 수 있으며, 서로 다른 인스턴스 ID를 통해 개별 객체를 식별할 수 있다. 주변 환경의 동적 특성을 설명하기 위해 4D 패노픽 세그멘테이션은 시간적으로 일관된 인스턴스 ID를 추가하여, 전체 시퀀스에 걸쳐 동일한 인스턴스를 일관성 있게 식별할 수 있도록 확장한다. 기존의 4D 패노픽 세그멘테이션 접근 방식은 후처리 단계에 의존하며, 종종 엔드투엔드로 훈련이 불가능하다. 본 논문에서는 후처리 과정 없이, 클러스터링이나 예측 간 관계 부여 없이도 시간에 걸쳐 일관된 마스크, 의미론적 클래스 및 인스턴스 ID를 직접 예측할 수 있는 새로운 접근 방식을 제안한다. 이는 이전 스캔에서 인스턴스를 디코딩했던 쿼리를 재사용함으로써 마스크 기반의 3D 패노픽 세그멘테이션 모델을 4D로 확장한 것이다. 이를 통해 각 쿼리는 시간에 따라 동일한 인스턴스를 디코딩하며, 해당 인스턴스의 ID를 유지하고 추적은 암묵적으로 수행된다. 이러한 구조는 세그멘테이션과 추적을 함께 최적화할 수 있도록 하며, 4D 패노픽 세그멘테이션에 대해 직접적인 지도 신호를 제공할 수 있게 한다.