
초록
비디오 캡셔닝 분야에서 '사전 훈련 및 미세 조정(fine-tuning)'은 이제 표준적인 접근 방식이 되었으며, 일반적으로 ImageNet 사전 훈련(INP, ImageNet Pre-training)을 활용해 비디오 콘텐츠를 인코딩한 후, 캡셔닝 생성을 위한 목적 지향 네트워크를 새로 시작하여 미세 조정하는 방식을 채택한다. 본 논문은 최근 제안된 CLIP(Contrastive Language-Image Pre-training)이 비디오 캡셔닝에 미치는 영향을 처음으로 탐구한다. INP와 CLIP 간의 실증적 비교를 통해 INP의 잠재적 한계를 식별하고 정확한 설명 생성을 위한 핵심 요인을 탐색한다. 그 결과, INP 기반 모델은 개념의 의미를 포착하는 데 어려움을 겪으며, 관련 없는 배경 정보에 매우 민감함을 확인하였다. 반면, CLIP 기반 모델은 캡셔닝 품질을 크게 향상시키며, 개념 인식형 표현 학습의 중요성을 부각시켰다. 이러한 발견을 바탕으로, 본 연구는 훈련 과정 중에 개념 지식을 모델에 주입하기 위해 '이중 개념 탐지(Dual Concept Detection, DCD)'를 제안한다. DCD는 캡셔닝 모델이 비디오 콘텐츠와 개념 간의 대응 관계, 그리고 개념 간 동시 발생 관계를 학습하도록 하는 보조 과제이다. MSR-VTT 및 VATEX 데이터셋에서의 실험 결과는 DCD의 효과를 입증하였으며, 시각화 결과를 통해 개념 인식형 표현 학습의 필요성을 더욱 명확히 보여주었다.