17일 전

적은 것이 더 많다: 희소 샘플링을 통한 비디오-언어 학습을 위한 ClipBERT

Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, Jingjing Liu
적은 것이 더 많다: 희소 샘플링을 통한 비디오-언어 학습을 위한 ClipBERT
초록

비디오 및 언어 학습(예: 비디오 질의 응답)에 대한 전통적인 접근 방식은 신경망 모델이 비전 모델로부터 사전에 추출한 밀도 높은 비디오 특징과 언어 모델로부터 추출한 텍스트 특징을 바탕으로 학습하도록 지시한다. 이러한 특징 추출기들은 독립적으로 훈련되며, 일반적으로 목표 도메인과는 다른 과제에서 훈련되므로, 이후 작업에 있어서 이러한 고정된 특징들은 최적화되지 않은 상태로 남게 된다. 게다가 밀도 높은 비디오 특징은 계산 부담이 크기 때문에, 기존의 접근법에 특징 추출기를 직접 통합하여 간편한 미세조정(fine-tuning)을 수행하는 것은 종종 어렵거나 불가능하다. 이 문제를 해결하기 위해, 우리는 단일 또는 몇 개의 희소 샘플링된 짧은 클립만을 각 훈련 단계에서 사용하는 희소 샘플링 전략을 활용함으로써, 저비용의 엔드투엔드(end-to-end) 학습이 가능한 일반적인 프레임워크인 ClipBERT를 제안한다. 6개의 데이터셋에서 수행한 텍스트-비디오 검색 및 비디오 질의 응답 실험 결과, 전체 길이의 비디오를 활용하는 기존 방법들과 비교해 ClipBERT가 더 뛰어나거나 동등한 성능을 보였으며, 이는 단지 몇 개의 희소 샘플링된 클립만으로도 엔드투엔드 학습을 수행하는 것이 전체 길이 비디오로부터 밀집 추출된 사전 특징을 사용하는 것보다 종종 더 정확하다는 것을 보여주며, '적은 것이 많다'(less-is-more)의 원칙을 실험적으로 입증한다. 사용된 데이터셋 내 비디오는 상당히 다양한 도메인과 길이를 가진 것으로, 3초 분량의 일반 도메인 GIF 영상부터 180초에 이르는 YouTube 인간 행동 영상에 이르기까지 다양하며, 본 연구의 접근법이 우수한 일반화 능력을 지닌다는 점을 보여준다. 성공 요인을 명확히 분석하기 위해 철저한 아블레이션 연구(ablation study)와 심층적 분석을 제공한다. 본 연구의 코드는 공개되어 있으며, https://github.com/jayleicn/ClipBERT 에서 확인할 수 있다.

적은 것이 더 많다: 희소 샘플링을 통한 비디오-언어 학습을 위한 ClipBERT | 최신 연구 논문 | HyperAI초신경