6ヶ月前

概要

本研究では、動画スカイム（video skims）の作成を通じて動画要約を行うための新しい非教師あり手法であるSegSumを提案する。近年の多くの手法は、個々の動画フレームに重要度スコアを割り当てる要約モデル（summarizer）を訓練するものであるが、そのスコアはKernel Temporal Segmentation（KTS）などの手法によって生成された動画セグメントに対して集約される。しかしながら、このアプローチでは要約モデルが要約生成に不可欠な情報——特にセグメント内の空間時系列的関係性——にアクセスできず、制限が生じる。本研究で提案する手法は、深層学習モデルにおける集中注目（concentrated attention）アーキテクチャを基盤とし、KTSから得られたセグメント情報を要約モデルの学習プロセスに組み込む。実験では、複数のデータセットおよび多くの非教師あり動画要約用アーキテクチャフレームワークを対象に、本手法の性能を広範に評価した。集中注目モジュールを導入することで、既存のベンチマークにおいてトップクラスのF1スコアを達成し、SumMeデータセットでは54％、TVSumデータセットでは62％のスコアを記録した。さらに、単純な回帰ネットワーク（Regressor network）を用いても、SegSumは人間のアノテーションと高い類似性を持つ要約を生成するという競争力ある性能を示した。

ソースPDF コードを表示