4ヶ月前

畳み込みニューラルネットワーク

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Gygli Michael

概要

ショット境界検出（SBD）は、アクション認識、ビデオインデキシング、要約、編集など、多くのビデオ分析タスクにおいて重要な要素である。従来の手法では、色ヒストグラムなどの低レベル特徴を用い、SVMなどの単純なモデルと組み合わせて処理する方法が一般的であった。一方、本研究では、ピクセルから最終的なショット境界までをエンド・ツー・エンドで学習するアプローチを提案する。このようなモデルの学習には、我々の洞察である「すべてのショット境界は生成される」という点に依拠している。したがって、カット、ディゾルブ、フェードなどの自動生成されたトランジションを含む、100万フレームからなるデータセットを構築した。長時間にわたるビデオを効率的に分析するため、時間方向に完全に畳み込み構造を持つ畳み込みニューラルネットワーク（CNN）を提案する。これにより、フレームの繰り返し処理を必要とせずに、広い時間的文脈を活用することが可能となる。本手法は、従来の最先端技術を上回る性能を達成しつつ、120倍以上のリアルタイム速度で実行可能である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

4ヶ月前

畳み込みニューラルネットワーク

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Gygli Michael

概要

ショット境界検出（SBD）は、アクション認識、ビデオインデキシング、要約、編集など、多くのビデオ分析タスクにおいて重要な要素である。従来の手法では、色ヒストグラムなどの低レベル特徴を用い、SVMなどの単純なモデルと組み合わせて処理する方法が一般的であった。一方、本研究では、ピクセルから最終的なショット境界までをエンド・ツー・エンドで学習するアプローチを提案する。このようなモデルの学習には、我々の洞察である「すべてのショット境界は生成される」という点に依拠している。したがって、カット、ディゾルブ、フェードなどの自動生成されたトランジションを含む、100万フレームからなるデータセットを構築した。長時間にわたるビデオを効率的に分析するため、時間方向に完全に畳み込み構造を持つ畳み込みニューラルネットワーク（CNN）を提案する。これにより、フレームの繰り返し処理を必要とせずに、広い時間的文脈を活用することが可能となる。本手法は、従来の最先端技術を上回る性能を達成しつつ、120倍以上のリアルタイム速度で実行可能である。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています