2달 전

DVIS-DAQ: 동적 앵커 쿼리를 통한 비디오 세그멘테이션 개선

Yikang Zhou; Tao Zhang; Shunping Ji; Shuicheng Yan; Xiangtai Li
DVIS-DAQ: 동적 앵커 쿼리를 통한 비디오 세그멘테이션 개선
초록

현대 비디오 세그멘테이션 방법들은 객체 쿼리를 사용하여 프레임 간 연관성을 수행하며, 대규모 움직임과 일시적인 가림 현상에도 불구하고 지속적으로 나타나는 객체 추적에서 만족스러운 성능을 보여줍니다. 그러나 이러한 방법들은 실제 세계에서 흔히 발생하는 새로 등장하거나 사라지는 객체들에 대해 성능이 떨어집니다. 이는 배경 쿼리와 전경 쿼리 사이의 큰 특성 차이를 통해 객체의 등장과 소멸을 모델링하려고 시도하기 때문입니다. 우리는 잠재적인 후보들의 특성을 기반으로 동적으로 앵커 쿼리를 생성하여 앵커 쿼리와 타겟 쿼리 사이의 전환 간격을 줄이는 동적 앵커 쿼리(DAQ)를 소개합니다. 또한, DAQ의 잠재력을 추가 비용 없이 발휘할 수 있는 쿼리 수준의 객체 등장 및 소멸 시뮬레이션(EDS) 전략을 제안합니다. 마지막으로, 제안된 DAQ와 EDS를 DVIS와 결합하여 DVIS-DAQ를 얻었습니다. 광범위한 실험 결과, DVIS-DAQ가 다섯 개 주요 비디오 세그멘테이션 벤치마크에서 새로운 최첨단(SOTA) 성능을 달성함을 입증하였습니다. 코드와 모델은 \url{https://github.com/SkyworkAI/DAQ-VS}에서 제공됩니다.