2달 전

모듈러 인터랙티브 비디오 객체 분할: 인터랙션-마스크, 전파 및 차이 인식 융합

Cheng, Ho Kei ; Tai, Yu-Wing ; Tang, Chi-Keung

초록

우리는 모듈형 상호작용 VOS (Modular interactive VOS, MiVOS) 프레임워크를 제시합니다. 이 프레임워크는 상호작용-마스크 변환과 마스크 전파를 분리하여, 더 높은 일반화 능력과 더 나은 성능을 제공할 수 있습니다. 각각 독립적으로 훈련된 상호작용 모듈은 사용자 상호작용을 객체 마스크로 변환하며, 이를 우리의 전파 모듈이 새로운 top-$k$ 필터링 전략을 통해 시공간 메모리를 읽어 시간적으로 전파합니다. 사용자의 의도를 효과적으로 반영하기 위해, 새로운 차이 인식 모듈(difference-aware module)이 제안되었습니다. 이 모듈은 각 상호작용 전후의 마스크를 적절히 융합하는 방법을 학습하며, 시공간 메모리를 활용하여 대상 프레임에 맞춥니다. 우리는 DAVIS 데이터셋에서 다양한 형태의 사용자 상호작용(예: 스케치, 클릭)을 통해 정성적 및 정량적으로 우리의 방법을 평가하여, 현재 최신 알고리즘보다 우수한 성능을 보여주며, 더 적은 프레임 상호작용이 필요하다는 점을 입증하였습니다. 또한, 480만 개의 프레임에 대한 픽셀 단위로 정확한 세그멘테이션을 포함하는 대규모 합성 VOS 데이터셋을 제공하여, 소스 코드와 함께 미래 연구를 촉진하고자 합니다.