2달 전
비디오 그라운딩을 위한 밀도 회귀 네트워크
Zeng, Runhao ; Xu, Haoming ; Huang, Wenbing ; Chen, Peihao ; Tan, Mingkui ; Gan, Chuang

초록
우리는 자연어 쿼리에서 비디오 그라운딩 문제를 다룹니다. 이 작업의 핵심 과제는 하나의 훈련 비디오가 모델 훈련에 사용될 수 있는 긍정적인 예시로 활용되는 몇 개의 주석이 달린 시작/종료 프레임만을 포함할 수 있다는 점입니다. 대부분의 기존 접근 방식은 이러한 불균형 데이터를 직접 이진 분류기로 훈련시키므로 결과가 저조합니다. 본 논문의 핵심 아이디어는 지면 진실 내부의 프레임과 시작(종료) 프레임 사이의 거리를 밀도 높은 감독으로 사용하여 비디오 그라운딩 정확도를 개선하는 것입니다. 구체적으로, 우리는 쿼리에서 설명된 비디오 세그먼트의 각 프레임에서 시작(종료) 프레임까지의 거리를 회귀하기 위한 새로운 밀도 회귀 네트워크(DRN, Dense Regression Network)를 설계하였습니다. 또한, 그라운딩 결과의 위치 결정 품질(즉, 예측된 위치와 지면 진실 간의 IoU)을 명시적으로 고려하기 위한 간단하지만 효과적인 IoU 회귀 헤드 모듈을 제안하였습니다. 실험 결과, 우리의 접근 방식이 세 가지 데이터셋(즉, Charades-STA, ActivityNet-Captions, 그리고 TACoS)에서 기존 최신 연구보다 크게 우수함을 보여주었습니다.