Command Palette
Search for a command to run...
{Ioannis Patras Vasileios Mezaris Alexandros I. Metsai Eleni Adamantidou Evlampios Apostolidis}
要約
本稿では、映像の重要な部分を特定するためにアテンション機構を統合した新たな動画要約手法を提案する。この手法は、生成対抗学習(Generative Adversarial Learning)を用いて教師なしで学習される。まず、SUM-GANモデルを出発点として、学習パラメータ数を大幅に削減し、モデル構成要素の段階的学習を可能にし、敵対的パートの更新に段階的ラベルベース戦略を適用する改良型モデル(SUM-GAN-sl)を構築した。次に、SUM-GAN-slにアテンション機構を2通りの方法で導入した:(i)アーキテクチャ内の変分自己符号化器(VAE)にアテンション層を統合する(SUM-GAN-VAAE)、および(ii)VAEを決定論的アテンション自己符号化器(Attention Auto-Encoder)に置き換える(SUM-GAN-AAE)。SumMeおよびTVSumの2つのデータセットを用いた実験評価により、アテンション自己符号化器がモデルの学習速度と安定性を向上させ、元のモデルと比較して顕著な性能向上を達成することが確認された。さらに、提案手法であるSUM-GAN-AAEは、最先端技術と比較しても競争力を持つことが示された。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| unsupervised-video-summarization-on-summe | SUM-GAN-AAE | F1-score: 48.9 Parameters (M): 24.31 training time (s): 1639 |
| unsupervised-video-summarization-on-tvsum | SUM-GAN-AAE | F1-score: 58.3 Parameters (M): 24.31 training time (s): 5423 |