
초록
본 논문에서는 VOS를 위한 통합된, 엔드투엔드 학습 가능한 시공간 CNN 모델을 제시합니다. 이 모델은 시간 일관성 분기와 공간 분할 분기로 구성되어 있습니다. 구체적으로, 시간 일관성 분기는 비라벨 동영상 데이터에서 적대적 방식으로 사전 학습되어 동영상 시퀀스의 동적인 외관 및 운동 정보를 포착하여 객체 분할을 안내하도록 설계되었습니다. 공간 분할 분기는 학습된 외관 및 운동 정보를 기반으로 객체를 정확하게 분할하는 데 중점을 두고 있습니다. 정확한 분할 결과를 얻기 위해, 우리는 설계된 주의 모듈을 다중 스케일 피처 맵에 순차적으로 적용하고 이를 연결하여 최종 예측을 생성하는 과정을 설계하였습니다. 이러한 방법으로 공간 분할 분기는 점진적으로 객체 영역에 집중하도록 강제됩니다. 이 두 개의 분기는 엔드투엔드 방식으로 동영상 세그멘테이션 시퀀스에서 공동으로 미세 조정됩니다. DAVIS-2016, DAVIS-2017 및 Youtube-Object라는 세 가지 도전적인 데이터셋에서 여러 실험이 수행되어 본 방법이 최신 연구 성과들에 비해 우수한 성능을 보임을 입증하였습니다. 코드는 https://github.com/longyin880815/STCNN에서 제공됩니다.