12日前

復元スコアを用いた自己教師学習の導入による教師なし動画要約

{Parvaneh Saeedi, Mehryar Abbasi}
要約

本稿では、教師なしのアプローチにより動画要約を生成する新しいプロセスを提示する。本手法は、部分的にマスクされた動画を入力として、トランスフォーマー・エンコーダモデルを自己教師学習的に訓練し、欠落したフレームを再構成するものである。その後、上記で訓練されたエンコーダを活用して各フレームに対する重要度スコアを算出するアルゴリズムを導入し、その重要度スコアをもとに動画の要約を構築する。我々は、マスクを施した動画に対するモデルの再構成誤差が、残存するフレームの代表性と相関していることを示す。また、TVSumおよびSumMeという2つのベンチマークデータセット上で、本手法の有効性を検証し、最先端(SOTA)手法を上回ることを実証した。さらに、生成的敵対学習に基づくSOTA手法と比較して、本手法は訓練プロセスにおいてより安定していることも示した。本研究のソースコードは公開されている。

復元スコアを用いた自己教師学習の導入による教師なし動画要約 | 最新論文 | HyperAI超神経