2달 전

Video K-Net: 비디오 세그멘테이션을 위한 간단하고 강력하며 통합된 기준모델

Xiangtai Li; Wenwei Zhang; Jiangmiao Pang; Kai Chen; Guangliang Cheng; Yunhai Tong; Chen Change Loy
Video K-Net: 비디오 세그멘테이션을 위한 간단하고 강력하며 통합된 기준모델
초록

본 논문은 Video K-Net을 소개합니다. Video K-Net은 완전한 엔드투엔드 비디오 팬옵틱 세그멘테이션을 위한 간단하면서도 강력하고 통합된 프레임워크입니다. 이 방법은 이미지 세그멘테이션을 학습 가능한 커널 집합을 통해 통합하는 K-Net 방법론을 기반으로 합니다. 우리는 K-Net에서 얻은 이러한 학습 가능한 커널들이 객체의 모양과 맥락을 인코딩하여 동일한 인스턴스를 비디오 프레임 간에 자연스럽게 연결할 수 있다는 것을 관찰하였습니다. 이 관찰에 착안하여, Video K-Net은 간단한 커널 기반의 모양 모델링과 시간적 크로스 커널 상호작용을 통해 비디오 내의 "사물"과 "배경"을 동시에 세그멘테이션하고 추적하도록 학습됩니다. 이 방법은 복잡한 추가 기법 없이 Cityscapes-VPS, KITTI-STEP, 그리고 VIPSeg 데이터셋에서 최고 수준의 비디오 팬옵틱 세그멘테이션 결과를 달성합니다. 특히, KITTI-STEP에서는 이전 방법론 대비 약 12%의 상대적인 성능 향상을 보였습니다. VIPSeg에서는 Video K-Net이 약 15%의 상대적인 성능 향상과 39.8%의 VPQ(Video Panoptic Quality)를 달성하였습니다. 또한, 우리는 비디오 의미론적 세그멘테이션에서도 그 일반화 능력을 검증하였으며, VSPW 데이터셋에서 다양한 베이스라인들을 2% 향상시키는 결과를 얻었습니다. 더 나아가, 우리는 K-Net을 클립 레벨 비디오 프레임워크로 확장하여 비디오 인스턴스 세그멘테이션에 적용하였으며, YouTube-VIS 2019 검증 데이터셋에서 ResNet50 백본으로 40.5% mAP와 Swin-base 백본으로 54.1% mAP를 달성하였습니다. 우리는 이 간단하면서도 효과적인 방법론이 통합된 비디오 세그멘테이션 설계에서 새로운 유연한 베이스라인으로 활용되기를 바랍니다. 코드와 모델은 https://github.com/lxtGH/Video-K-Net 에서 공개되었습니다.

Video K-Net: 비디오 세그멘테이션을 위한 간단하고 강력하며 통합된 기준모델 | 최신 연구 논문 | HyperAI초신경