
要約
ビデオキャプション生成において、「事前学習と微調整(pre-training and fine-tuning)」は既に標準的なアプローチとされており、通常はImageNet事前学習(INP: ImageNet Pre-training)を用いて動画のコンテンツをエンコードした後、キャプション生成に特化したネットワークを初期状態から微調整する手法が採用されている。本研究では、最近提案されたCLIP(Contrastive Language-Image Pre-training)がビデオキャプションに与える影響を初めて検討した。INPとCLIPの実証的研究を通じて、INPの潜在的な課題を特定し、正確な記述生成に必要な主要な要因を明らかにした。その結果、INPに基づくモデルは概念の意味を捉えるのが難しく、不要な背景情報に対して敏感であることが示された。これに対して、CLIPに基づくモデルはキャプションの品質を著しく向上させ、概念に敏感な表現学習の重要性を浮き彫りにした。これらの知見をもとに、学習過程において概念知識をモデルに注入するための「二重概念検出(Dual Concept Detection, DCD)」を提案する。DCDは、キャプションモデルが動画コンテンツと概念との対応関係、および概念間の共起関係を学習することを求める補助タスクである。MSR-VTTおよびVATEXにおける実験により、DCDの有効性が実証され、可視化結果から概念に敏感な表現を学習することが不可欠であることがさらに裏付けられた。