
비디오 내 픽셀 단위 객체 마스크를 레이블링하는 것은 비용이 많이 들고 노동력이 많이 소모됩니다. 그 결과 기존 비디오 인스턴스 세그멘테이션(VIS) 데이터셋에서 픽셀 단위의 애너테이션 수량이 매우 적어, 훈련된 VIS 모델의 일반화 능력이 제한됩니다. 대안으로, 비디오 내 인스턴스를 경계 상자(bounding box)로 레이블링하는 방식이 훨씬 저렴한 해결책이 될 수 있습니다. 최근 경계 상자로 학습하는 이미지 인스턴스 세그멘테이션의 성공을 영감으로 받아, 최신 픽셀 기반 VIS 모델을 경계 상자 기반 VIS(BoxVIS) 기준 모델로 적응시켰고, 성능이 약간 저하되는 것을 관찰했습니다. 이를 개선하기 위해 두 가지 측면에서 성능 향상을 제안합니다. 첫째, 공간적 및 시간적 일관성을 향상시키기 위해, 상자 중심을 기반으로 하는 공간-시간 쌍별 유사도(STPA) 손실을 제안합니다. 둘째, 현재 VIS 벤치마크에서의 비디오를 통합하고 COCO 데이터셋의 이미지를 짧은 가상 비디오 클립으로 변환하여 더 큰 규모의 경계 상자 애너테이션 VIS 데이터셋(BVISD)을 수집했습니다. 제안된 BVISD와 STPA 손실을 활용한 BoxVIS 모델은 YouTube-VIS 2021과 OVIS 검증 세트에서 각각 43.2%, 29.0%의 마스크 AP를 달성했습니다. 이 모델은 기존 최첨단 픽셀 기반 VIS 모델보다 단지 16%의 애너테이션 시간과 비용만을 사용하면서도 유사한 인스턴스 마스크 예측 성능과 더 뛰어난 일반화 능력을 보였습니다. 코드와 데이터는 \url{https://github.com/MinghanLi/BoxVIS}에서 확인할 수 있습니다.