8ヶ月前

ビデオ処理

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Yunjae Jung Donghyeon Cho Dahun Kim Sanghyun Woo In So Kweon

概要

本論文では、入力動画から自動的にキーショットを抽出する非監督動画要約の問題に取り組んでいます。特に、我々の経験的観察に基づいて以下の2つの重要な課題に焦点を当てます：(i) 各フレームの出力重要度スコアの分布が平坦であるため、特徴学習が効果的でない問題、(ii) 長尺動画入力を扱う際の訓練の困難さ。第1の課題を緩和するために、我々は単純でありながら効果的な正則化損失項である分散損失（variance loss）を提案します。提案された分散損失は、ネットワークが各フレームに対して高分散な出力スコアを予測できるようにし、これにより効果的な特徴学習が可能となり、モデル性能が大幅に向上します。第2の課題については、動画特徴量の局所（チャンク）と全体（ストライド）の時間的視点を利用する新しい二流ネットワークであるチャンク・アンド・ストライド・ネットワーク（CSNet）を設計しました。我々のCSNetは、既存手法よりも長尺動画に対する要約結果を改善します。さらに、動画内の動的な情報を処理するために注意メカニズムを導入しています。提案手法の有効性を示すために広範なアブレーション研究を行い、最終的なモデルが2つのベンチマークデータセットにおいて新たな最先端の結果を達成していることを示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

ビデオ処理

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Yunjae Jung Donghyeon Cho Dahun Kim Sanghyun Woo In So Kweon

概要

本論文では、入力動画から自動的にキーショットを抽出する非監督動画要約の問題に取り組んでいます。特に、我々の経験的観察に基づいて以下の2つの重要な課題に焦点を当てます：(i) 各フレームの出力重要度スコアの分布が平坦であるため、特徴学習が効果的でない問題、(ii) 長尺動画入力を扱う際の訓練の困難さ。第1の課題を緩和するために、我々は単純でありながら効果的な正則化損失項である分散損失（variance loss）を提案します。提案された分散損失は、ネットワークが各フレームに対して高分散な出力スコアを予測できるようにし、これにより効果的な特徴学習が可能となり、モデル性能が大幅に向上します。第2の課題については、動画特徴量の局所（チャンク）と全体（ストライド）の時間的視点を利用する新しい二流ネットワークであるチャンク・アンド・ストライド・ネットワーク（CSNet）を設計しました。我々のCSNetは、既存手法よりも長尺動画に対する要約結果を改善します。さらに、動画内の動的な情報を処理するために注意メカニズムを導入しています。提案手法の有効性を示すために広範なアブレーション研究を行い、最終的なモデルが2つのベンチマークデータセットにおいて新たな最先端の結果を達成していることを示しています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています