16일 전

LoSh: 참조 비디오 객체 분할을 위한 장단기 텍스트 통합 예측 네트워크

Linfeng Yuan, Miaojing Shi, Zijie Yue, Qijun Chen
LoSh: 참조 비디오 객체 분할을 위한 장단기 텍스트 통합 예측 네트워크
초록

참조 동영상 객체 분할(RVOS, Referring Video Object Segmentation)은 주어진 텍스트 표현을 통해 영상 클립 내 특정 객체를 분할하는 것을 목표로 한다. 일반적으로 텍스트 표현은 대상 객체의 외형, 행동, 그리고 다른 객체들과의 관계에 대한 복잡한 묘사를 포함한다. 따라서 RVOS 모델이 영상 내에서 이러한 다양한 특성을 정확히 포착하는 것은 매우 어렵다. 실제로 모델은 대개 객체의 행동이나 관계와 관련된 시각적 특성에 더 집중하게 되며, 이로 인해 대상 객체의 마스크 예측이 부분적 또는 완전히 잘못될 수 있다. 본 연구는 원래의 긴 텍스트 표현에서 주체 중심의 단축된 텍스트 표현을 추출함으로써 이 문제를 해결한다. 단축된 표현은 대상 객체의 외형 정보만을 유지함으로써, 모델이 객체의 외형에 집중하도록 유도할 수 있다. 우리는 모델이 긴 텍스트 표현과 짧은 텍스트 표현을 함께 사용하여 공동 예측을 하도록 하며, 공동 특징 간의 상호작용을 위해 긴-짧은 교차 주의(attention) 모듈을 도입하고, 공동 예측을 조정하기 위해 긴-짧은 예측 교차 손실(long-short predictions intersection loss)을 제안한다. 언어적 측면의 개선 외에도, 시각적 일관성을 강화하기 위해 전진-후진 시각 일관성 손실(forward-backward visual consistency loss)을 도입하였다. 이 손실은 광학 흐름(optical flows)을 활용하여 레이블이 붙은 프레임과 그 시간적 이웃 프레임 간의 시각적 특징을 왜곡(warp)함으로써 일관성을 유지하도록 한다. 본 연구는 두 가지 최신 기술 기반의 파이프라인 위에 본 방법을 구축하였다. A2D-Sentences, Refer-YouTube-VOS, JHMDB-Sentences, Refer-DAVIS17 등 다양한 데이터셋에서 실시한 광범위한 실험 결과, 제안한 방법이 뚜렷한 성능 향상을 보였다. 코드는 다음 링크에서 공개되어 있다: https://github.com/LinfengYuan1997/Losh.

LoSh: 참조 비디오 객체 분할을 위한 장단기 텍스트 통합 예측 네트워크 | 최신 연구 논문 | HyperAI초신경