2달 전
더 많이 보고, 더 많이 알기: 공통 주의력 시아메즈 네트워크를 이용한 비지도 영상 객체 분할
Xiankai Lu; Wenguan Wang; Chao Ma; Jianbing Shen; Ling Shao; Fatih Porikli

초록
우리는 전체적인 관점에서 비지도 학습 영상 객체 분할 작업을 해결하기 위해 새로운 네트워크인 CO-attention Siamese Network (COSNet)을 소개합니다. 우리는 영상 프레임 간의 고유한 상관관계의 중요성을 강조하며, 이 상관관계와 장면 맥락을 포착하기 위한 전역 공통 주의 메커니즘을 통합하여, 주로 외모와 운동에 대한 단기 시계열 구간에서 차별적 배경 표현을 학습하는 최신 딥러닝 기반 솔루션들을 더욱 개선하였습니다. 우리 네트워크의 공통 주의 층은 공동으로 공통 주의 응답을 계산하고 이를 결합된 특징 공간에 추가함으로써, 전역 상관관계와 장면 맥락을 효과적으로 포착하는 단계를 제공합니다. COSNet은 영상 프레임 쌍으로 훈련되며, 이는 자연스럽게 훈련 데이터를 확장하고 학습 용량을 증가시킵니다. 분할 단계에서는 공통 주의 모델이 여러 참조 프레임을 함께 처리하여 유용한 정보를 인코딩하며, 이를 통해 자주 재등장하고 눈에 띄는 배경 객체들을 더 잘 추론할 수 있습니다. 우리는 영상 내부에서 풍부한 맥락을 추출하기 위해 다양한 공통 주의 변형체를 도출할 수 있는 통합되고 엔드투엔드로 훈련 가능한 프레임워크를 제안합니다. 세 가지 대규모 벤치마크에 대한 우리의 광범위한 실험 결과는 COSNet이 현재의 대안들보다 크게 우수함을 입증하였습니다.