2달 전

Tube-Link: 유연한 크로스 튜브 프레임워크를 통한 보편적인 비디오 세그멘테이션

Xiangtai Li; Haobo Yuan; Wenwei Zhang; Guangliang Cheng; Jiangmiao Pang; Chen Change Loy
Tube-Link: 유연한 크로스 튜브 프레임워크를 통한 보편적인 비디오 세그멘테이션
초록

비디오 세그멘테이션은 다양한 시나리오에서 모든 픽셀을 정확하게 분할하고 추적하는 것을 목표로 합니다. 본 논문에서는 유니파이드 아키텍처를 통해 비디오 세그멘테이션의 여러 핵심 작업을 해결하는 다목적 프레임워크인 Tube-Link를 제시합니다. 우리의 프레임워크는 근접 온라인 접근 방식으로 짧은 서브클립을 입력으로 받아 해당 공간-시간 튜브 마스크를 출력합니다. 튜브 간 관계 모델링을 강화하기 위해, 우리는 쿼리를 따라 주의 메커니즘(attention)을 활용하여 튜브 수준 링킹을 수행하는 효과적인 방법을 제안합니다. 또한, 인스턴스별 차별화된 특징을 위한 시간 대조 학습(temporal contrastive learning)을 도입하여 튜브 수준 연관성을 높입니다. 우리의 접근 방식은 각 서브클립의 길이가 데이터셋이나 시나리오에 따라 조정될 수 있으므로, 짧거나 긴 비디오 입력 모두에 대해 유연성과 효율성을 제공합니다. Tube-Link는 5개의 비디오 세그멘테이션 데이터셋에서 기존 전문 아키텍처들을 크게 능가하며, 특히 VIPSeg에서는 강력한 베이스라인 Video K-Net보다 약 13% 상대적으로 향상되었으며, KITTI-STEP에서는 4% 향상되었습니다. ResNet50 백본을 사용할 때, Youtube-VIS-2019와 2021에서 Tube-Link는 각각 IDOL 성능을 3%와 4% 향상시킵니다.

Tube-Link: 유연한 크로스 튜브 프레임워크를 통한 보편적인 비디오 세그멘테이션 | 최신 연구 논문 | HyperAI초신경