
要約
ビデオサマリゼーションは、再帰型ニューラルネットワーク(RNN)の恩恵を受け、大きな成功を収めていますが、RNNベースの手法はビデオフレーム間の全体的な依存関係と多段階の関連性を無視しているため、性能に制限があります。トランスフォーマーはこの問題を解決する効果的なモデルであり、機械翻訳やビデオキャプショニングなど、いくつかのシーケンスモデリングタスクにおいてRNNベースの手法を上回っています。トランスフォーマーの大成功とビデオの自然な構造(フレーム-ショット-ビデオ)に着想を得て、ビデオサマリゼーション用に階層的トランスフォーマーが開発されました。これにより、フレームとショット間の依存関係を捉え、ショットによって形成されるシーン情報を活用してビデオを要約することができます。さらに、我々は音声情報と視覚情報がともにビデオサマリゼーションタスクにおいて重要であると考えています。これらの2種類の情報を統合するために、2ストリームスキームでエンコードされ、階層的トランスフォーマーに基づいたマルチモーダル融合メカニズムが開発されました。本論文では、提案された手法を階層的マルチモーダルトランスフォーマー(Hierarchical Multimodal Transformer: HMT)と表記します。実際には、多数の実験結果からHMTが伝統的な手法やRNNベースおよびアテンションベースのビデオサマリゼーション手法を上回ることが示されています。