2달 전
비디오 부사 검색을 위한 구성적 부사-행동 임베딩
Thomas Hummel; Otniel-Bogdan Mercea; A. Sophia Koepke; Zeynep Akata

초록
동영상에서 행동을 설명하는 부사들을 추출하는 것은 세부적인 동영상 이해를 위한 중요한 단계입니다. 본 연구에서는 동영상과 부사-행동 텍스트 임베딩을 공동 임베딩 공간에서 일치시키는 동영상-부사 검색 프레임워크(및 그 역방향)를 제안합니다. 이 복합적 부사-행동 텍스트 임베딩은 잔여 게이팅 메커니즘을 사용하여 학습되며, 트리플트 손실과 회귀 목표로 구성된 새로운 훈련 목적함수와 함께 사용됩니다. 제안한 방법은 최근의 다섯 개 비디오-부사 검색 벤치마크에서 최고 수준의 성능을 달성하였습니다. 또한, MSR-VTT Adverbs 및 ActivityNet Adverbs 데이터셋의 부분 집합에서 미처 보지 못한 부사-행동 조합에 대한 비디오-부사 검색 벤치마크를 위해 데이터셋 분할을 소개합니다. 제안한 프레임워크는 미처 보지 못한 부사-행동 조합으로부터 동영상에서 부사를 검색하는 일반화 작업에서 모든 이전 연구보다 우수한 성능을 보였습니다. 코드와 데이터셋 분할은 https://hummelth.github.io/ReGaDa/ 에서 제공됩니다.