마스크 없는 비디오 인스턴스 세그멘테이션

최근 비디오 인스턴스 분할(Video Instance Segmentation, VIS)의 발전은 주로 더 깊고 데이터에 더욱 목마른 트랜스포머 기반 모델의 사용으로 이루어져 왔습니다. 그러나 비디오 마스크를 주석화하는 것은 번거롭고 비용이 많이 들기 때문에, 기존의 VIS 데이터셋의 규모와 다양성이 제한되어 있습니다. 본 연구에서는 이러한 마스크 주석화 요구사항을 제거하는 것을 목표로 합니다. 우리는 MaskFreeVIS를 제안하여, 객체 상태에 대한 경계 상자 주석만을 사용하면서도 뛰어난 VIS 성능을 달성하였습니다. 우리는 비디오에서 풍부한 시간적 마스크 일관성 제약 조건을 활용하기 위해 시간적 KNN-패치 손실(Temporal KNN-patch Loss, TK-Loss)을 도입하였습니다. 이 TK-Loss는 효율적인 패치 매칭 단계 후 K-가장 가까운 이웃 선택을 통해 프레임 간 다대일 매칭을 찾습니다. 그런 다음, 찾아낸 매칭에 대해 일관성 손실이 적용됩니다. 우리의 마스크 없는 목적함수는 구현이 간단하며, 학습 가능한 매개변수가 없으며, 계산적으로 효율적이지만, 예를 들어 최신 광학 유동(optical flow)을 사용하여 시간적 마스크 일관성을 강제하는 기준선 방법들을 능가합니다. 우리는 YouTube-VIS 2019/2021, OVIS 및 BDD100K MOTS 벤치마크에서 MaskFreeVIS를 검증하였습니다. 결과는 완전 감독과 약간 감독된 VIS 성능 사이의 격차를 크게 좁힌다는 점에서 우리 방법의 효과성을 명확히 입증하고 있습니다. 우리의 코드와 학습된 모델은 https://github.com/SysCV/MaskFreeVis에서 제공됩니다.