Mask4Former: 4D 팬옵틱 세그멘테이션을 위한 마스크 트랜스포머

시간에 따른 인스턴스의 정확한 인식과 추적은 동적인 환경에서 안전하게 상호작용하는 자율 에이전트의 의사결정 과정에 필수적입니다. 이 목표를 달성하기 위해, 우리는 LiDAR 포인트 클라우드의 4D 팬오 若要保持正式和准确的翻译,以下是修正后的版本:시간에 따른 인스턴스의 정확한 인식과 추적은 동적인 환경에서 안전하게 상호작용하는 자율 에이전트의 의사결정 과정에 필수적입니다. 이를 위해, 우리는 LiDAR 포인트 클라우드의 4D 팬옵틱 세그멘테이션이라는 어려운 작업을 위한 Mask4Former를 제안합니다. Mask4Former는 스파스하고 불규칙한 3D 포인트 클라우드 시퀀스의 의미론적 인스턴스 세그멘테이션과 추적을 단일 통합 모델로 결합하는 첫 번째 트랜스포머 기반 접근 방식입니다. 우리의 모델은 확률론적 클러스터링이나 투표 기반 중심 예측 등의 수동으로 설계된 비학습 연관 전략에 의존하지 않고 직접 의미론적 인스턴스와 그 시간적 연관성을 예측합니다. 대신, Mask4Former는 시퀀스 내 각 의미론적 트랙릿(semantic tracklet)의 의미론적 및 기하학적 특성을 부호화하는 시공간 인스턴스 쿼리를 도입합니다. 깊이 있는 연구를 통해 우리는 시공간 인스턴스 쿼리가 공간적으로 멀리 떨어져 있어도 여러 의미론적으로 유사한 인스턴스를 합치는 경향이 있다는 것을 발견했습니다. 따라서, 이러한 경향을 완화하기 위해 6자유도(6-DOF) 바운딩 박스크기 파라미터를 시공간 인스턴스 쿼리로부터 회귀(regression)하여 공간적으로 조밀한 예측을 촉진하는 보조 작업으로 활용하였습니다. Mask4Former는 SemanticKITTI 테스트 세트에서 68.4 LSTQ 점수를 기록하며 새로운 최고 성능을 달성했습니다.