
要約
ビデオサマリゼーションは、短く簡潔で多様かつ元のビデオを代表するサマリーを作成することにより、大規模なビデオ閲覧を容易にする目的を持っています。本論文では、ビデオサマリゼーションを逐次的な意思決定プロセスとして定式化し、深層サマリネットワーク(Deep Summarization Network: DSN)を開発してビデオを要約します。DSNは各ビデオフレームに対して確率を予測し、その確率分布に基づいてフレームを選択することで、ビデオサマリーを形成します。我々のDSNの訓練のために、エンドツーエンドの強化学習ベースのフレームワークを提案します。このフレームワークでは、生成されたサマリーの多様性と代表性を総合的に評価する新しい報酬関数を設計しました。この報酬関数はラベルやユーザインタラクションに依存せず、訓練中に生成されたサマリーがどれだけ多様で代表性があるかを判断します。一方で、DSNはより高額な報酬を得るために学習し、より多様でより代表的なサマリーを作成しようと努力します。ラベルが不要であるため、我々の方法は完全に教師なしで実行できます。2つのベンチマークデータセットでの広範な実験結果から、我々の教師なし手法は他の最先端の教師なし手法よりも優れており、さらに多くの既存の教師ありアプローチと同等かそれ以上の性能を持つことが示されました。