
초록
참조 비디오 세그멘테이션은 자연어 표현을 활용하여 객체를 식별하고 세그먼트화하며, 종종 움직임 힌트에 중점을 둡니다. 이전 연구들은 문장을 전체로 취급하고 직접 비디오 수준에서 식별을 수행하여, 정적 이미지 수준의 힌트와 시간적 움직임 힌트를 혼합하였습니다. 그러나 이미지 수준의 특징은 문장 내의 움직임 힌트를 충분히 이해하지 못하며, 정적 힌트는 시간적 인식에 결정적이지 않습니다. 사실, 정적 힌트는 때때로 움직임 힌트를 가리켜 시간적 인식을 방해할 수 있습니다. 본 연구에서는 비디오 수준의 참조 표현 이해를 정적 인식과 움직임 인식으로 분리하는 방법을 제안하며, 특히 시간적 이해력 강화에 중점을 두었습니다. 첫째, 우리는 표현 분리 모듈을 도입하여 정적 힌트와 움직임 힌트가 각각 다른 역할을 수행하도록 하여 문장 임베딩이 움직임 힌트를 간과하는 문제를 완화하였습니다. 둘째, 다양한 시간 스케일에서 효과적으로 시간 정보를 포착하기 위한 계층적인 움직임 인식 모듈을 제안하였습니다. 또한, 시각적으로 유사한 객체들의 움직임을 구분하기 위해 대조 학습(contrastive learning)을 사용하였습니다. 이러한 기여로 인해 다섯 개 데이터셋에서 최고 성능을 달성하였으며, 특히 어려운 MeViS 데이터셋에서 $\textbf{9.2%}$ $\mathcal{J\&F}$ 개선이 이루어졌습니다. 코드는 https://github.com/heshuting555/DsHmp에서 제공됩니다.