
要約
一般的なビデオサマリーは、ビデオ全体のストーリーを伝え、最も重要なシーンを特徴づける短縮版です。しかし、ビデオ内のシーンの重要性はしばしば主観的なものであり、ユーザーが自然言語を使用して自分にとって重要なものを指定できるように、サマリーのカスタマイズオプションが必要です。さらに、完全自動の一般的なサマリ作成モデルでは、有効な注目度の事前知識として利用できる言語モデルが活用されていません。本研究では、CLIP-Itという単一フレームワークを導入し、一般的なビデオサマリとクエリ中心のビデオサマリ(通常文献では別々に扱われています)の両方に対応します。我々は、言語ガイド付きマルチモーダルトランスフォーマーを提案し、このモデルはビデオ内のフレームの相対的な重要性とユーザー定義のクエリ(クエリ中心のサマリの場合)または自動生成された濃密なビデオキャプション(一般的なビデオサマリの場合)との関連性に基づいてスコアリングを学習します。また、当モデルは教師なし設定にも拡張可能で、真実データなしで訓練することができます。我々の手法は基準モデルや先行研究よりも大幅に優れた性能を示しており、標準的なビデオサマリデータセット(TVSumおよびSumMe)とクエリ中心のビデオサマリデータセット(QFVS)においても同様です。特に転移設定において大きな改善が見られることから、当手法の強力な汎化能力が確認されています。