2달 전

비디오 팬옵틱 세그멘테이션

Dahun Kim; Sanghyun Woo; Joon-Young Lee; In So Kweon
비디오 팬옵틱 세그멘테이션
초록

파노라마 분할(Panoptic Segmentation)은 기존의 의미 분할(Semantic Segmentation)과 인스턴스 분할(Instance Segmentation) 작업을 통합함으로써 시각 인식 작업의 새로운 표준이 되었습니다. 본 논문에서는 이 작업의 비디오 확장을 제안하고 탐구하는데, 이를 비디오 파노라마 분할(Video Panoptic Segmentation)이라고 합니다. 이 작업은 일관된 파노라마 분할 생성뿐만 아니라 비디오 프레임 간의 인스턴스 ID 연관성을 제공해야 합니다. 이 새로운 작업에 대한 연구를 촉진하기 위해, 우리는 두 가지 유형의 비디오 파노라마 데이터셋을 제시합니다. 첫 번째는 대규모 픽셀 주석을 활용하기 위해 합성 VIPER 데이터셋을 비디오 파노라마 형식으로 재구성한 것입니다. 두 번째는 Cityscapes 검증 세트에 새로운 비디오 파노라마 주석(Cityscapes-VPS)을 제공하여 시간적 확장성을 부여한 것입니다. 또한, 우리는 객체 클래스, 바운딩 박스, 마스크, 인스턴스 ID 추적 및 의미 분할을 비디오 프레임에서 동시에 예측하는 새로운 비디오 파노라마 분할 네트워크(VPSNet)를 제안합니다. 이 작업에 적절한 평가 지표를 제공하기 위해, 우리는 비디오 파노라마 품질(Video Panoptic Quality, VPQ) 지표를 제안하고 우리의 방법과 여러 베이스라인들을 평가하였습니다. 실험 결과는 제시된 두 개의 데이터셋의 유효성을 입증합니다. 우리는 Cityscapes에서 이미지 PQ(Image PQ)와 Cityscapes-VPS 및 VIPER 데이터셋에서 VPQ에서도 최신 성능을 달성하였습니다. 데이터셋과 코드는 공개적으로 제공됩니다.

비디오 팬옵틱 세그멘테이션 | 최신 연구 논문 | HyperAI초신경