17일 전

참조 비디오 객체 세그멘테이션을 위한 의미 정렬을 통한 다중 수준 표현 학습

{Jianbing Shen, Ling Shao, Xingping Dong, Dongming Wu}
참조 비디오 객체 세그멘테이션을 위한 의미 정렬을 통한 다중 수준 표현 학습
초록

참조 영상 객체 분할(Referring Video Object Segmentation, RVOS)은 언어 쿼리에 기반한 영상 지문(task)으로, 객체 예측을 위해 영상 콘텐츠와 언어 쿼리의 의미 정보를 종합적으로 이해하는 데 있어 도전적인 과제를 포함한다. 그러나 기존 방법들은 프레임 기반의 공간적 단위에서 다중 모달 정보를 융합하는 방식을 채택하고 있다. 이러한 접근은 시각적 표현의 한계로 인해 시각-언어 불일치(visual-language mismatching)를 초래하고, 나쁜 분할 결과를 유도할 가능성이 높다. 이를 해결하기 위해 본 연구에서는 영상 콘텐츠의 내재적 구조를 탐색함으로써 구분력 있는 시각 임베딩을 제공하는 새로운 다수준 표현 학습 기법을 제안한다. 이를 통해 보다 효과적인 시각-언어 의미 정렬이 가능해진다. 구체적으로, 영상 수준에서 다중 프레임의 장시간 정보, 프레임 수준에서의 내부 공간적 의미, 객체 수준에서 강화된 객체 인지 특징 사전 정보를 포함한 다양한 시각적 단서를 다중 격자(granularity) 기반으로 임베딩한다. 강력한 다수준 시각 임베딩과 정교하게 설계된 동적 정렬 메커니즘을 결합함으로써, 본 모델은 정확한 영상 객체 분할을 위한 견고한 표현을 생성할 수 있다. Refer-DAVIS_17 및 Refer-YouTube-VOS에 대한 광범위한 실험 결과를 통해, 본 모델이 분할 정확도와 추론 속도 모두에서 우수한 성능을 달성함을 입증하였다.

참조 비디오 객체 세그멘테이션을 위한 의미 정렬을 통한 다중 수준 표현 학습 | 최신 연구 논문 | HyperAI초신경