
要約
本稿では、教師あり動画要約のための新しい手法を提案する。従来のRNNベースの要約アーキテクチャには、長距離のフレーム間依存関係のモデリングの難しさおよび学習プロセスの並列化の困難さといった課題が存在するが、本研究で開発されたモデルは、自己注意(self-attention)機構を用いて動画フレームの重要度を推定することで、これらの課題を克服する。従来の注意機構に基づく要約手法が、すべてのフレームシーケンスを観察することでフレーム間の依存関係をモデリングしていたのに対し、本手法は、グローバルかつローカルなマルチヘッド注意機構を組み合わせることで、異なる粒度レベルにおけるフレーム間依存関係の多様なモデリングを可能にしている。さらに、採用した注意機構には、動画フレームの時系列的位置情報を符号化するコンポーネントが統合されており、これは動画要約生成において極めて重要な要素である。SumMeおよびTVSumの2つのデータセットを用いた実験により、提案モデルが既存の注意機構ベースの手法と比較して有効性を示すとともに、他の最先端の教師あり要約手法と比較しても競争力を持つことが確認された。本研究の主な提案要素、すなわちグローバル・ローカルなマルチヘッド注意機構と絶対的位置符号化(absolute positional encoding)コンポーネントの協調運用に焦点を当てたアブレーションスタディから、各要素が全体の要約性能に及ぼす相対的な寄与が明らかになった。