11일 전

HTML: 하이브리드 시간 규모 다중모달 학습 프레임워크를 활용한 참조 비디오 객체 세그멘테이션

{Yu Qiao, Xiaojun Chang, Lina Yao, Zhihui Li, Yali Wang, Mingfei Han}
HTML: 하이브리드 시간 규모 다중모달 학습 프레임워크를 활용한 참조 비디오 객체 세그멘테이션
초록

참고 영상 객체 분할(Referring Video Object Segmentation, RVOS)은 주어진 영상에서 특정 객체 인스턴스를 해당 객체에 대한 텍스트 설명에 따라 분할하는 작업이다. 그러나 오픈 월드 환경에서는 객체에 대한 설명이 내용 면에서 다양하고 길이 면에서 유연하게 표현되는 경우가 많다. 이로 인해 RVOS의 핵심 과제가 발생한다. 즉, 서로 다른 객체에 대한 다양한 설명은 영상 내에서 서로 다른 시계열 스케일에 대응하게 되며, 이는 기존 대부분의 접근 방식이 단일 프레임 샘플링 간격(single stride)만을 사용함으로써 무시되는 문제이다. 이러한 문제를 해결하기 위해 우리는 다양한 시계열 스케일에서 계층적으로 다모달 상호작용을 학습함으로써 언어적 특징과 시각적 특징을 효과적으로 정렬하고 영상 내 핵심 객체 의미를 탐지할 수 있는 간결한 하이브리드 시계열 다모달 학습(HTML: Hybrid Temporal-scale Multimodal Learning) 프레임워크를 제안한다. 구체적으로, 언어 질의가 시계열 스케일 간에 동적으로 시각적 특징과 상호작용할 수 있는 새로운 인스케일 다모달 인지 모듈을 도입하였다. 이 모듈은 서로 다른 스케일 간에 영상 컨텍스트를 전달함으로써 복잡한 객체 혼동을 효과적으로 줄일 수 있다. 최종적으로, Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences, JHMDB-Sentences 등 널리 사용되는 벤치마크에서 광범위한 실험을 수행한 결과, 본 HTML 프레임워크는 모든 데이터셋에서 최신 기술(SOTA) 수준의 성능을 달성하였다.

HTML: 하이브리드 시간 규모 다중모달 학습 프레임워크를 활용한 참조 비디오 객체 세그멘테이션 | 최신 연구 논문 | HyperAI초신경