2달 전
운동을 옵션으로 취급하고 출력 선택을 통한 비지도 동영상 객체 분할
Cho, Suhwan ; Lee, Minhyeok ; Lee, Jungho ; Cho, MyeongAh ; Park, Seungwook ; Kim, Jaeyeob ; Jang, Hyunsung ; Lee, Sangyoun

초록
비지도 비디오 객체 분할은 객체에 대한 외부 가이드라인 없이 비디오에서 가장 눈에 띄는 객체를 감지하는 것을 목표로 합니다. 눈에 띄는 객체는 배경과 비교하여 독특한 움직임을 보이는 경우가 많으며, 최근의 방법들은 이 점을 활용하여 광학 흐름 맵에서 얻은 움직임 정보와 RGB 이미지에서 얻은 외관 정보를 결합합니다. 그러나 광학 흐름 맵은 종종 분할 마스크와 밀접하게 연관되어 있어, 네트워크가 훈련 중 움직임 정보에 지나치게 의존하게 되어 혼란스러운 움직임 정보가 주어졌을 때 취약해지고 예측이 불안정해질 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 움직임 정보를 필수 요소가 아닌 선택적 구성 요소로 다루는 새로운 '모션-옵션 네트워크'를 제안합니다. 훈련 과정에서는 광학 흐름 맵 대신 RGB 이미지를 무작위로 모션 인코더에 입력함으로써 네트워크의 움직임 정보에 대한 의존성을 암시적으로 줄입니다. 이 설계는 모션 인코더가 RGB 이미지와 광학 흐름 맵 모두를 처리할 수 있도록 하며, 제공된 입력 유형에 따라 두 가지 다른 예측 결과를 생성합니다. 이 유연성을 최대한 활용하기 위해, 우리는 테스트 시 최적의 예측 결과를 결정하는 적응형 출력 선택 알고리즘을 도입하였습니다.