8ヶ月前

畳み込みニューラルネットワーク

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Jaewon Son Jaehun Park Kwangsu Kim*

概要

ビデオサマリゼーションは、ビデオの本質的な内容と重要な瞬間を捉えながら、全体の長さを短縮することを目指しています。いくつかの手法では、長期依存関係を処理するために注意メカニズムが用いられていますが、しばしばフレームに内在する視覚的重要性を捉えることができません。この制約に対処するため、私たちは単一のビデオから各フレームの特徴を重ねて画像のようなフレーム表現を作成し、2D CNNをこれらのフレーム特徴に適用するCNNベースの空間時間的注意（CSTA）手法を提案します。私たちの方法論は、CNNが画像内の絶対位置を学習する能力を利用して、フレーム間およびフレーム内の関係性を理解し、ビデオにおける重要な属性を見つけることに依存しています。以前の研究では空間的重要性に焦点を当てるために追加モジュールを設計することで効率性が損なわれていましたが、CSTAはスライディングウィンドウとしてCNNを使用することで最小限の計算負荷で済みます。SumMeおよびTVSumという2つのベンチマークデータセットでの広範な実験により、提案手法が従来の手法よりも少ないMACsで最先端の性能を達成することが示されています。コードはhttps://github.com/thswodnjs3/CSTA で利用可能です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

畳み込みニューラルネットワーク

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Jaewon Son Jaehun Park Kwangsu Kim*

概要

ビデオサマリゼーションは、ビデオの本質的な内容と重要な瞬間を捉えながら、全体の長さを短縮することを目指しています。いくつかの手法では、長期依存関係を処理するために注意メカニズムが用いられていますが、しばしばフレームに内在する視覚的重要性を捉えることができません。この制約に対処するため、私たちは単一のビデオから各フレームの特徴を重ねて画像のようなフレーム表現を作成し、2D CNNをこれらのフレーム特徴に適用するCNNベースの空間時間的注意（CSTA）手法を提案します。私たちの方法論は、CNNが画像内の絶対位置を学習する能力を利用して、フレーム間およびフレーム内の関係性を理解し、ビデオにおける重要な属性を見つけることに依存しています。以前の研究では空間的重要性に焦点を当てるために追加モジュールを設計することで効率性が損なわれていましたが、CSTAはスライディングウィンドウとしてCNNを使用することで最小限の計算負荷で済みます。SumMeおよびTVSumという2つのベンチマークデータセットでの広範な実験により、提案手法が従来の手法よりも少ないMACsで最先端の性能を達成することが示されています。コードはhttps://github.com/thswodnjs3/CSTA で利用可能です。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています