
초록
본 논문은 도전적인 반감독 비디오 객체 분할 문제를 해결하기 위한 임베딩 학습의 원칙을 조사합니다. 이전 연구들이 전경 객체의 픽셀만을 사용하여 임베딩 학습을 탐구한 것과 달리, 우리는 배경도 동등하게 다뤄야 한다고 고려하여 전경-배경 통합(CFBI) 접근법을 제안합니다. 우리의 CFBI는 대상 전경 객체와 해당 배경의 특징 임베딩이 대조적으로 이루어지도록 암시적으로 강제 적용하여, 이를 통해 분할 결과를 개선합니다. 전경과 배경 모두에서 얻은 특징 임베딩을 이용해, 우리의 CFBI는 참조 시퀀스와 예측 시퀀스 간에 픽셀 수준과 인스턴스 수준에서 매칭 과정을 수행하여 다양한 객체 크기에 대해 견고성을 확보합니다. 우리는 DAVIS 2016, DAVIS 2017, YouTube-VOS 등 세 가지 유명한 벤치마크에서 광범위한 실험을 수행했습니다. 우리의 CFBI는 각각 89.4%, 81.9%, 81.4%의 성능(J$F)을 달성하여 모든 다른 최신 방법들을 능가하였습니다. 코드: https://github.com/z-x-yang/CFBI.