17일 전

고품질 비디오 인스턴스 세그멘테이션을 위한 비디오 마스크 전이기

Lei Ke, Henghui Ding, Martin Danelljan, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu
고품질 비디오 인스턴스 세그멘테이션을 위한 비디오 마스크 전이기
초록

비디오 인스턴스 세그멘테이션(VIS)은 최근 급속한 발전을 보였지만, 현재의 접근 방식은 정확한 경계 세부 정보를 갖춘 고품질 마스크를 예측하는 데 어려움을 겪고 있다. 더불어 예측된 세그멘테이션 결과가 시간에 따라 불안정하게 변하는 경향이 있으며, 이는 시계열 일관성 정보가 간과되거나 충분히 활용되지 않았음을 시사한다. 본 논문에서는 이러한 문제를 해결함으로써 VIS에서 더 세밀하고 시계열적으로 안정적인 마스크 예측을 달성하고자 한다. 먼저, 매우 효율적인 비디오 트랜스포머 구조를 통해 세부적인 고해상도 특징을 활용할 수 있는 비디오 마스크 트랜스파이너(VMT) 방법을 제안한다. VMT는 비디오 세그먼트 내 각 트랙렛의 희소한 오류 발생 가능성이 높은 시공간 영역을 탐지하고 그룹화한 후, 국소적 및 인스턴스 수준의 정보를 활용해 이를 정밀하게 보정한다. 두 번째로, 유명한 YouTube-VIS 데이터셋의 거친 경계 레이블이 주요한 제한 요인임을 지적한다. 본 논문의 VMT 아키텍처를 기반으로, 반복적 훈련과 자기 보정을 통한 자동 레이블 정제 기법을 설계하였다. VIS에서 고품질 마스크 예측을 평가할 수 있도록, 수동으로 재레이블링된 테스트 세트와 자동으로 정제된 훈련 데이터로 구성된 HQ-YTVIS 데이터셋을 제안한다. 제안한 VMT는 HQ-YTVIS를 비롯해 YouTube-VIS, OVIS, BDD100K MOTS와 같은 주요 벤치마크에서 최신 최고 성능(SOTA) 방법들과 비교 평가되었다. 실험 결과는 복잡하고 동적인 객체를 세분화하는 데 있어 본 방법의 효과성과 실용성을 명확히 입증하며, 정밀한 세부 정보를 효과적으로 포착함을 보여준다.