2달 전

비디오 객체 분할에서 객체를 되돌리기

Ho Kei Cheng; Seoung Wug Oh; Brian Price; Joon-Young Lee; Alexander Schwing

초록

우리는 객체 수준 메모리 읽기를 사용하는 비디오 객체 분할(VOS) 네트워크인 Cutie를 소개합니다. 이 네트워크는 메모리에서 객체 표현을 비디오 객체 분할 결과로 되돌려주는 역할을 합니다. 최근의 VOS 연구들은 하향식 픽셀 수준 메모리 읽기를 사용하지만, 방해물이 있는 경우 매칭 노이즈로 인해 성능이 저하되는 문제가 있습니다. 특히 도전적인 데이터에서는 이러한 문제가 더욱 두드러집니다.반면에, Cutie는 소수의 객체 쿼리를 적응하여 상향식 객체 수준 메모리 읽기를 수행합니다. 이를 통해 쿼리 기반 객체 트랜스포머(query-based object transformer, qt)와 함께 하향식 픽셀 특징들과 반복적으로 상호작용합니다(따라서 이 모델은 Cutie라고 명명되었습니다). 객체 쿼리는 대상 객체의 고차원적 요약 역할을 하며, 고해상도 피처 맵은 정확한 분할을 위해 유지됩니다. 전경-배경 마스크 주의력(foreground-background masked attention)과 함께 사용함으로써, Cutie는 전경 객체의 의미를 배경과 명확하게 구분합니다.도전적인 MOSE 데이터셋에서 Cutie는 유사한 실행 시간으로 XMem보다 8.7 J&F 점수를 향상시키고, DeAOT보다 4.2 J&F 점수를 향상시키면서 세 배 빠른 속도를 보입니다. 코드는 다음 주소에서 확인 가능합니다: https://hkchengrex.github.io/Cutie