2달 전

프로토타입 메모리 네트워크를 통한 비지도 동영상 객체 분할

Minhyeok Lee; Suhwan Cho; Seunghoon Lee; Chaewon Park; Sangyoun Lee
프로토타입 메모리 네트워크를 통한 비지도 동영상 객체 분할
초록

비지도 비디오 객체 분할은 초기 프레임에서 참조 마스크 없이 비디오 내의 대상 객체를 분할하는 것을 목표로 합니다. 이 어려운 작업은 비디오 시퀀스 내에서 가장 눈에 띄는 공통 객체의 특징을 추출하는 것이 필요합니다. 이러한 난제는 광학 흐름과 같은 운동 정보를 사용하여 해결할 수 있지만, 인접한 프레임 간의 정보만을 사용하면 먼 프레임 사이의 연결성이 부족하고 성능이 저하됩니다. 이를 해결하기 위해 우리는 새로운 프로토타입 메모리 네트워크 구조를 제안합니다. 제안된 모델은 입력 RGB 이미지와 광학 흐름 맵에서 슈퍼픽셀 기반 구성 요소 프로토타입을 추출하여 RGB와 운동 정보를 효과적으로 추출합니다. 또한, 모델은 각 프레임에서 구성 요소 프로토타입의 유용성을 자가 학습 알고리즘을 통해 점수화하고, 가장 유용한 프로토타입을 메모리에 적응적으로 저장하며 쓸모없어진 프로토타입은 삭제합니다. 우리는 메모리 뱅크에 저장된 프로토타입을 사용하여 다음 쿼리 프레임의 마스크를 예측하는데, 이는 먼 프레임 간의 연관성을 강화하여 정확한 마스크 예측을 돕습니다. 우리의 방법은 세 가지 데이터셋에서 평가되어 최고 수준의 성능을 달성하였습니다. 다양한 아블레이션 연구를 통해 제안된 모델의 유효성을 입증하였습니다.

프로토타입 메모리 네트워크를 통한 비지도 동영상 객체 분할 | 최신 연구 논문 | HyperAI초신경