2달 전

반복적으로 쉬운 참조 프레임을 선택하면 비지도 영상 객체 분할이 더 쉽습니다.

Youngjo Lee; Hongje Seong; Euntai Kim
반복적으로 쉬운 참조 프레임을 선택하면 비지도 영상 객체 분할이 더 쉽습니다.
초록

비지도 비디오 객체 분할(UVOS)은 비디오에서 전경 객체를 배경으로부터 분리하는 픽셀 단위 이진 라벨링 문제로, 전경 객체의 지면 진실(GT) 마스크를 사용하지 않고 수행됩니다. 대부분의 기존 UVOS 모델은 전경 객체의 마스크를 지정하기 위해 첫 번째 프레임이나 전체 비디오를 참조 프레임으로 사용합니다. 우리는 왜 첫 번째 프레임이 참조 프레임으로 선택되어야 하는지, 또는 왜 전체 비디오가 참조 프레임을 지정하기 위해 사용되어야 하는지를 질문합니다. 우리는 첫 번째 프레임이나 전체 비디오만을 참조 프레임으로 사용하는 것보다 더 나은 UVOS 성능을 달성하기 위해 더 나은 참조 프레임을 선택할 수 있다고 믿습니다. 본 논문에서는 Easy Frame Selector (EFS)를 제안합니다. EFS는 '쉬운' 참조 프레임을 선택하여 후속 VOS 과정을 용이하게 하여 VOS 성능을 향상시키는 기능을 제공합니다. 또한, Iterative Mask Prediction (IMP)라는 새로운 프레임워크를 제안합니다. 이 프레임워크에서는 주어진 비디오에 EFS를 반복적으로 적용하고, 이전 반복보다 '더 쉬운' 참조 프레임을 비디오에서 선택하여 점진적으로 VOS 성능을 개선합니다. IMP는 EFS, 양방향 마스크 예측(BMP), 그리고 시간적 정보 업데이트(TIU)로 구성됩니다. 제안된 프레임워크를 통해 DAVIS16, FBMS, SegTrack-V2 세 가지 UVOS 벤치마크 세트에서 최고 수준의 성능을 달성하였습니다.

반복적으로 쉬운 참조 프레임을 선택하면 비지도 영상 객체 분할이 더 쉽습니다. | 최신 연구 논문 | HyperAI초신경