2달 전

문장에서 배우와 행동 비디오 분할

Kirill Gavrilyuk; Amir Ghodrati; Zhenyang Li; Cees G.M. Snoek

초록

본 논문은 비디오 콘텐츠 내에서 배우자와 그들의 행동을 픽셀 단위로 분할하는 것을 목표로 합니다. 기존 연구들과는 달리, 모든 작업이 고정된 배우자와 행동 쌍의 어휘에서 분할을 학습하는 것과는 다르게, 우리는 자연어 입력 문장으로부터 분할을 추론합니다. 이 방법은 동일한 상위 범주 내에서 세부적으로 구분되는 배우자를 식별하고, 배우자와 행동 인스턴스를 확인하며, 배우자와 행동 어휘 외의 쌍을 분할하는 것이 가능하게 합니다. 우리는 비디오에 최적화된 인코더-디코더 구조를 사용하여 픽셀 단위로 배우자와 행동을 분할하기 위한 완전 컨벌루션 모델을 제안합니다. 자연어 문장으로부터 배우자와 행동 비디오 분할의 잠재력을 보여주기 위해, 두 개의 인기 있는 배우자 및 행동 데이터셋을 7,500개 이상의 자연어 설명으로 확장했습니다. 실험 결과는 문장 안내 분할의 품질, 모델의 일반화 능력, 그리고 기존 연구 대비 전통적인 배우자 및 행동 분할에서의 우수성을 입증하였습니다.