11일 전
제로샷 비디오 객체 세그멘테이션을 위한 주의 기반 그래프 신경망
Wenguan Wang, Xiankai Lu, Jianbing Shen, David Crandall, Ling Shao

초록
이 연구는 제로샷 비디오 객체 분할(ZVOS)을 위한 새로운 주의 기반 그래프 신경망(AGNN)을 제안한다. 제안된 AGNN은 이 작업을 비디오 그래프 상에서 반복적인 정보 융합 과정으로 재정의한다. 구체적으로 AGNN은 프레임을 노드로, 임의의 프레임 쌍 간의 관계를 엣지로 표현할 수 있는 완전 연결 그래프를 구축한다. 쌍별 관계는 미분 가능한 주의 메커니즘으로 표현되며, 파라미터화된 메시지 전달을 통해 AGNN은 비디오 프레임 간 더 풍부하고 고차원적인 관계를 효율적으로 포착하고 탐색할 수 있다. 이로 인해 비디오 콘텐츠에 대한 보다 완전한 이해와 더 정확한 전경 추정이 가능해진다. 세 가지 비디오 분할 데이터셋에서의 실험 결과는 AGNN이 각 경우에서 새로운 최고 성능(SOTA)을 달성함을 보여준다. 또한 본 프레임워크의 일반화 능력을 further 검증하기 위해, AGNN을 추가 작업인 이미지 객체 공동 분할(IOCS)에 확장하였다. 두 가지 유명한 IOCS 데이터셋에서 실험을 수행한 결과, AGNN 모델의 우수성이 다시 한번 입증되었다. 광범위한 실험을 통해 AGNN이 비디오 프레임 또는 관련 이미지 간의 기본적인 의미적/외형적 관계를 학습하고, 공통 객체를 탐지할 수 있음을 확인하였다.