HyperAIHyperAI

Command Palette

Search for a command to run...

Attentionメカニズムを用いた非教師あり動画要約における時間的スキームの統合

Viet H. Vo Bang Q. Vo

概要

本研究では、動画スカイム(video skims)の作成を通じて動画要約を行うための新しい非教師あり手法であるSegSumを提案する。近年の多くの手法は、個々の動画フレームに重要度スコアを割り当てる要約モデル(summarizer)を訓練するものであるが、そのスコアはKernel Temporal Segmentation(KTS)などの手法によって生成された動画セグメントに対して集約される。しかしながら、このアプローチでは要約モデルが要約生成に不可欠な情報——特にセグメント内の空間時系列的関係性——にアクセスできず、制限が生じる。本研究で提案する手法は、深層学習モデルにおける集中注目(concentrated attention)アーキテクチャを基盤とし、KTSから得られたセグメント情報を要約モデルの学習プロセスに組み込む。実験では、複数のデータセットおよび多くの非教師あり動画要約用アーキテクチャフレームワークを対象に、本手法の性能を広範に評価した。集中注目モジュールを導入することで、既存のベンチマークにおいてトップクラスのF1スコアを達成し、SumMeデータセットでは54%、TVSumデータセットでは62%のスコアを記録した。さらに、単純な回帰ネットワーク(Regressor network)を用いても、SegSumは人間のアノテーションと高い類似性を持つ要約を生成するという競争力ある性能を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています