2달 전

가이드 슬롯 어텐션을 이용한 비지도 영상 객체 분할

Minhyeok Lee; Suhwan Cho; Dogyoon Lee; Chaewon Park; Jungho Lee; Sangyoun Lee
가이드 슬롯 어텐션을 이용한 비지도 영상 객체 분할
초록

비지도 비디오 객체 분할은 비디오 시퀀스에서 가장 눈에 띄는 객체를 분할하는 것을 목표로 합니다. 그러나 복잡한 배경과 여러 개의 전경 객체가 존재함으로써 이 작업은 어려워집니다. 이러한 문제를 해결하기 위해, 우리는 공간 구조 정보를 강화하고 더 나은 전경-배경 분리를 얻기 위한 안내 슬롯 주의 네트워크(Guided Slot Attention Network)를 제안합니다. 쿼리 안내에 의해 초기화된 전경 및 배경 슬롯은 템플릿 정보와의 상호작용을 통해 반복적으로 정교해집니다. 또한, 타겟 프레임과 참조 프레임에서 전역 및 국소 특성을 효과적으로 융합하고 슬롯-템플릿 상호작용을 개선하기 위해 K-최근접 이웃 필터링(K-nearest neighbors filtering)과 특성 집계 변환기(Feature Aggregation Transformer)가 도입되었습니다. 제안된 모델은 두 가지 인기 있는 데이터셋에서 최고 수준의 성능을 달성하였습니다. 또한, 다양한 비교 실험을 통해 제안된 모델이 도전적인 장면에서도 견고함을 입증하였습니다.

가이드 슬롯 어텐션을 이용한 비지도 영상 객체 분할 | 최신 연구 논문 | HyperAI초신경