2달 전
가이드 슬롯 어텐션을 이용한 비지도 영상 객체 분할
Minhyeok Lee; Suhwan Cho; Dogyoon Lee; Chaewon Park; Jungho Lee; Sangyoun Lee

초록
비지도 비디오 객체 분할은 비디오 시퀀스에서 가장 눈에 띄는 객체를 분할하는 것을 목표로 합니다. 그러나 복잡한 배경과 여러 개의 전경 객체가 존재함으로써 이 작업은 어려워집니다. 이러한 문제를 해결하기 위해, 우리는 공간 구조 정보를 강화하고 더 나은 전경-배경 분리를 얻기 위한 안내 슬롯 주의 네트워크(Guided Slot Attention Network)를 제안합니다. 쿼리 안내에 의해 초기화된 전경 및 배경 슬롯은 템플릿 정보와의 상호작용을 통해 반복적으로 정교해집니다. 또한, 타겟 프레임과 참조 프레임에서 전역 및 국소 특성을 효과적으로 융합하고 슬롯-템플릿 상호작용을 개선하기 위해 K-최근접 이웃 필터링(K-nearest neighbors filtering)과 특성 집계 변환기(Feature Aggregation Transformer)가 도입되었습니다. 제안된 모델은 두 가지 인기 있는 데이터셋에서 최고 수준의 성능을 달성하였습니다. 또한, 다양한 비교 실험을 통해 제안된 모델이 도전적인 장면에서도 견고함을 입증하였습니다.