2달 전

모듈러 인터랙티브 비디오 객체 분할: 인터랙션-마스크, 전파 및 차이 인식 융합

Cheng, Ho Kei ; Tai, Yu-Wing ; Tang, Chi-Keung
모듈러 인터랙티브 비디오 객체 분할: 인터랙션-마스크, 전파 및 차이 인식 융합
초록

우리는 모듈형 상호작용 VOS (Modular interactive VOS, MiVOS) 프레임워크를 제시합니다. 이 프레임워크는 상호작용-마스크 변환과 마스크 전파를 분리하여, 더 높은 일반화 능력과 더 나은 성능을 제공할 수 있습니다. 각각 독립적으로 훈련된 상호작용 모듈은 사용자 상호작용을 객체 마스크로 변환하며, 이를 우리의 전파 모듈이 새로운 top-$k$ 필터링 전략을 통해 시공간 메모리를 읽어 시간적으로 전파합니다. 사용자의 의도를 효과적으로 반영하기 위해, 새로운 차이 인식 모듈(difference-aware module)이 제안되었습니다. 이 모듈은 각 상호작용 전후의 마스크를 적절히 융합하는 방법을 학습하며, 시공간 메모리를 활용하여 대상 프레임에 맞춥니다. 우리는 DAVIS 데이터셋에서 다양한 형태의 사용자 상호작용(예: 스케치, 클릭)을 통해 정성적 및 정량적으로 우리의 방법을 평가하여, 현재 최신 알고리즘보다 우수한 성능을 보여주며, 더 적은 프레임 상호작용이 필요하다는 점을 입증하였습니다. 또한, 480만 개의 프레임에 대한 픽셀 단위로 정확한 세그멘테이션을 포함하는 대규모 합성 VOS 데이터셋을 제공하여, 소스 코드와 함께 미래 연구를 촉진하고자 합니다.

모듈러 인터랙티브 비디오 객체 분할: 인터랙션-마스크, 전파 및 차이 인식 융합 | 최신 연구 논문 | HyperAI초신경