2달 전

ViP-DeepLab: 깊이 인식 비디오 팬오믹 세그멘테이션을 이용한 시각적 지각 학습

Siyuan Qiao; Yukun Zhu; Hartwig Adam; Alan Yuille; Liang-Chieh Chen
ViP-DeepLab: 깊이 인식 비디오 팬오믹 세그멘테이션을 이용한 시각적 지각 학습
초록

본 논문에서는 시각 분야에서 오랫동안 해결하기 어려웠던 역투영 문제를 다루기 위한 통합 모델인 ViP-DeepLab을 제시합니다. 이 문제는 관점 이미지 시퀀스에서 포인트 클라우드를 복원하는 것과 동시에 각 포인트에 인스턴스 수준의 의미 해석을 제공하는 것으로 모델링됩니다. 이 문제를 해결하기 위해서는 비전 모델이 각 3D 포인트의 공간 위치, 의미 클래스, 그리고 시간적으로 일관된 인스턴스 라벨을 예측해야 합니다. ViP-DeepLab은 단일 카메라 깊이 추정과 비디오 팬옵틱 세그멘테이션을 동시에 수행하여 이 문제에 접근합니다. 이를 '깊이 인식 비디오 팬옵틱 세그멘테이션'이라는 공동 작업으로 명명하고, 이를 위해 새로운 평가 지표와 두 개의 파생 데이터셋을 제안하며, 공개할 예정입니다. 개별 하위 작업에서도 ViP-DeepLab은 최신 결과를 달성하여 Cityscapes-VPS에서 5.1% VPQ로 이전 방법들을 능가하였으며, KITTI 단일 카메라 깊이 추정 벤치마크와 KITTI MOTS 보행자 부문에서 1위를 차지하였습니다. 데이터셋과 평가 코드는 공개될 예정입니다.

ViP-DeepLab: 깊이 인식 비디오 팬오믹 세그멘테이션을 이용한 시각적 지각 학습 | 최신 연구 논문 | HyperAI초신경