HyperAIHyperAI

Command Palette

Search for a command to run...

アテンションベースのエンコーダーデコーダーネットワークを用いたビデオ要約

Zhong Ji Kailin Xiong Yanwei Pang Xuelong Li

概要

本論文は、監督付きビデオサマリの問題をシーケンス・ツー・シーケンス学習問題として定式化し、入力が元のビデオフレームの系列で、出力がキーショットの系列であることを特徴とします。我々の主なアイデアは、人間がキーショットを選択する方法を模倣するために、注意メカニズムを持つ深層サマリネットワークを学習することです。この目的のために、我々は新しいビデオサマリフレームワークである「注意エンコーダーデコーダーネットワークによるビデオサマリ(AVS)」を提案します。このフレームワークでは、エンコーダーが双方向長短期記憶(BiLSTM)を使用して入力ビデオフレーム間の文脈情報を符号化します。一方、デコーダーでは、加法的および乗法的な目的関数を使用して2つの注意ベースのLSTMネットワークが探索されます。3つのビデオサマリベンチマークデータセット(SumMeおよびTVSum)に対して広範な実験が行われました。結果は、提案されたAVSベースの手法が最先端の手法に比して優れていることを示しており、2つのデータセットにおいてそれぞれ0.8%から3%という顕著な改善が見られました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
アテンションベースのエンコーダーデコーダーネットワークを用いたビデオ要約 | 記事 | HyperAI超神経