2달 전

비디오-언어 학습에서 단일 프레임 편향 폭로

Lei, Jie ; Berg, Tamara L. ; Bansal, Mohit
비디오-언어 학습에서 단일 프레임 편향 폭로
초록

비디오-언어 모델을 효과적으로 훈련시키는 것은 직관적으로 여러 프레임을 모델 입력으로 필요로 합니다. 그러나 다수의 프레임 사용이 하류 작업에 유익한지, 그리고 그렇다면 성능 향상이 더 많은 프레임을 사용함으로써 급격히 증가하는 계산 및 메모리 비용을 정당화할 만큼 가치 있는지 여부는 명확하지 않습니다. 본 연구에서는 비디오-언어 학습을 위한 단일 프레임 모델을 탐구합니다. 다양한 비디오-언어 작업(텍스트-비디오 검색 및 비디오 질문 응답 포함)에서, 대규모 사전 훈련과 추론 시 적절한 프레임 앙상블 전략을 통해 시간 정보를 고려하지 않는 단일 프레임 훈련 모델이 다수의 프레임을 사용하여 훈련된 기존 방법보다 더 우수한 성능을 보이는 놀라운 결과를 제시합니다. 이 결과는 인기 있는 비디오-언어 데이터셋에 강력한 "정적 외관 편향(static appearance bias)"이 존재함을 드러냅니다. 따라서 비디오-언어 모델의 보다 포괄적인 평가를 가능하게 하기 위해, 세부적인 동작 인식 데이터셋을 기반으로 하는 두 가지 새로운 검색 작업을 제안합니다. 우리의 코드는 https://github.com/jayleicn/singularity 에서 확인할 수 있습니다.