11일 전

텍스트 기반 비디오 세그멘테이션을 위한 액터 및 액션 모듈러 네트워크

Jianhua Yang, Yan Huang, Kai Niu, Linjiang Huang, Zhanyu Ma, Liang Wang
텍스트 기반 비디오 세그멘테이션을 위한 액터 및 액션 모듈러 네트워크
초록

텍스트 기반 비디오 세그멘테이션은 텍스트 쿼리를 통해 액터와 그가 수행하는 동작을 지정함으로써 비디오 시퀀스 내에서 해당 액터를 세그멘트하는 것을 목표로 한다. 기존의 방법들은 다중 모달 융합 과정에서 두 모달 간에 담고 있는 의미 정보의 양이 다름에 따라, 비디오 콘텐츠를 텍스트 쿼리와 세부적인 수준에서 액터와 동작에 따라 명시적으로 정렬하지 못하는 문제인 \emph{의미 비대칭성}(semantic asymmetry)을 해결하지 못한다. 이 문제를 완화하기 위해, 우리는 액터와 동작을 별도의 모듈에서 각각 정확히 위치화하는 새로운 액터-동작 모듈러 네트워크를 제안한다. 구체적으로, 먼저 비디오와 텍스트 쿼리로부터 액터 및 동작 관련 콘텐츠를 학습한 후, 대칭적인 방식으로 두 콘텐츠를 매칭하여 목표 튜브(tube)를 정확히 위치화한다. 이 목표 튜브는 원하는 액터와 동작을 포함하며, 이후 완전 컨볼루션 네트워크(fully convolutional network)에 입력되어 액터의 세그멘테이션 마스크를 예측한다. 또한 제안된 시간적 프로포절 집계 기법(temporal proposal aggregation mechanism)을 통해 다중 프레임 간 객체 간의 관계를 효과적으로 연결함으로써, 시간적으로 일관된 예측을 유지하면서 비디오를 효과적으로 세그멘트할 수 있다. 전체 모델은 액터-동작 매칭과 세그멘테이션을 공동 학습할 수 있도록 설계되었으며, A2D Sentences 및 J-HMDB Sentences 데이터셋에서 단일 프레임 세그멘테이션과 전체 비디오 세그멘테이션 모두에서 최신 기술(SOTA) 수준의 성능을 달성한다.

텍스트 기반 비디오 세그멘테이션을 위한 액터 및 액션 모듈러 네트워크 | 최신 연구 논문 | HyperAI초신경