8ヶ月前

概要

ビデオサマリゼーションは、ビデオの要約（ストーリーボードやビデオスキム）を自動的に生成することを目指しており、大規模なビデオ検索や閲覧を容易にします。既存の方法の多くは個々のビデオに対してサマリを生成するものであり、類似したビデオ間の相関関係を見落としています。しかし、これらの相関関係は、ビデオ理解やビデオサマリゼーションにおいても重要な情報源となります。この制限に対処するために、階層的トランスフォーマーに基づくビデオ合同モデリング（VJMHT: Video Joint Modelling based on Hierarchical Transformer）を提案します。VJMHTでは、類似したビデオ間の意味論的な依存関係を取り扱います。具体的には、VJMHTは2つのトランスフォーマー層から構成されています。第1層では、類似したビデオの各ショットから意味論的な表現を抽出し、第2層ではショットレベルでのビデオ合同モデリングを行い、クロスビデオの意味論的情報を集約します。これにより、個々のビデオのサマリ化のために明示的にクロスビデオ全体の高次パターンがモデル化され学習されます。さらに、トランスフォーマーに基づくビデオリプレゼンテーション再構築が導入され、サマリと元のビデオとの間で高次の類似性を最大化します。広範な実験が行われていて、提案されたモジュールの有効性とF値および順位評価におけるVJMHTの優越性が確認されています。

ソースPDF