2ヶ月前

アテンションベースのエンコーダーデコーダーネットワークを用いたビデオ要約

Zhong Ji; Kailin Xiong; Yanwei Pang; Xuelong Li
アテンションベースのエンコーダーデコーダーネットワークを用いたビデオ要約
要約

本論文は、監督付きビデオサマリの問題をシーケンス・ツー・シーケンス学習問題として定式化し、入力が元のビデオフレームの系列で、出力がキーショットの系列であることを特徴とします。我々の主なアイデアは、人間がキーショットを選択する方法を模倣するために、注意メカニズムを持つ深層サマリネットワークを学習することです。この目的のために、我々は新しいビデオサマリフレームワークである「注意エンコーダーデコーダーネットワークによるビデオサマリ(AVS)」を提案します。このフレームワークでは、エンコーダーが双方向長短期記憶(BiLSTM)を使用して入力ビデオフレーム間の文脈情報を符号化します。一方、デコーダーでは、加法的および乗法的な目的関数を使用して2つの注意ベースのLSTMネットワークが探索されます。3つのビデオサマリベンチマークデータセット(SumMeおよびTVSum)に対して広範な実験が行われました。結果は、提案されたAVSベースの手法が最先端の手法に比して優れていることを示しており、2つのデータセットにおいてそれぞれ0.8%から3%という顕著な改善が見られました。