Command Palette
Search for a command to run...
{Parvaneh Saeedi Mehryar Abbasi}
要約
本稿では、教師なしのアプローチにより動画要約を生成する新しいプロセスを提示する。本手法は、部分的にマスクされた動画を入力として、トランスフォーマー・エンコーダモデルを自己教師学習的に訓練し、欠落したフレームを再構成するものである。その後、上記で訓練されたエンコーダを活用して各フレームに対する重要度スコアを算出するアルゴリズムを導入し、その重要度スコアをもとに動画の要約を構築する。我々は、マスクを施した動画に対するモデルの再構成誤差が、残存するフレームの代表性と相関していることを示す。また、TVSumおよびSumMeという2つのベンチマークデータセット上で、本手法の有効性を検証し、最先端(SOTA)手法を上回ることを実証した。さらに、生成的敵対学習に基づくSOTA手法と比較して、本手法は訓練プロセスにおいてより安定していることも示した。本研究のソースコードは公開されている。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| unsupervised-video-summarization-on-summe | RS-SUM | F1-score: 52.0 |
| unsupervised-video-summarization-on-tvsum | RS-SUM | F1-score: 61.4 Kendall's Tau: 0.08 Spearman's Rho: 0.106 |