12日前

DSNet:動画要約のための柔軟な検出から要約へのネットワーク

{and Jie Zhou, Jiahao Li, Jiwen Lu, Wencheng Zhu}
要約

本稿では、教師あり動画要約のための「検出から要約へ(Detect-to-Summarize)」ネットワーク(DSNet)フレームワークを提案する。本DSNetは、アンカーに基づくアプローチとアンカーフリーなアプローチの両方を含む。アンカーに基づく手法は、動画シーケンスの代表的なコンテンツを特定・局所化するための時系列的興味領域(temporal interest proposals)を生成するのに対し、アンカーフリーな手法は事前に定義された時系列的提案を排除し、直接的にフレームの重要度スコアとセグメントの位置を予測する。既存の教師あり動画要約手法が時系列的一貫性や整合性の制約を考慮せずに要約を回帰問題として定式化しているのに対し、本研究の興味検出フレームワークは、時系列的一貫性を時系列的興味検出の定式化を通じて活用する初めての試みである。具体的には、アンカーに基づくアプローチでは、長さの変動に対応可能な多スケール間隔による密な時系列的興味領域のサンプリングを行い、その後、それらの長期的時系列特徴を抽出して、興味領域の位置推定と重要度予測を行う。特に、生成された要約の正確性と完全性を確保するため、正例セグメントと負例セグメントの両方が割り当てられている。一方、アンカーフリーなアプローチでは、時系列的提案の欠点を克服するため、動画フレームの重要度スコアとセグメント位置を直接予測する。特に、本興味検出フレームワークは、既存の教師あり動画要約手法に柔軟に組み込むことが可能である。本研究では、SumMeおよびTVSumデータセット上でアンカーに基づくアプローチとアンカーフリーなアプローチを評価した。実験結果は、両アプローチの有効性を明確に裏付けている。

DSNet:動画要約のための柔軟な検出から要約へのネットワーク | 最新論文 | HyperAI超神経