4ヶ月前

畳み込みニューラルネットワーク

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan

概要

本研究では、動画全体の空間時間領域にわたって局所的な畳み込み特徴を統合する新しい動画表現を提案する。この表現は、最先端の二重ストリームネットワークと学習可能な空間時間特徴統合を組み合わせることで実現される。その結果得られるアーキテクチャは、動画全体の分類に対してエンド・ツー・エンドで訓練可能である。空間と時間方向におけるプーリング戦略、および異なるストリームからの信号の統合方法について検討した結果、以下のことが明らかになった：(i) 空間と時間方向を同時にプーリングすることが重要であり、(ii) 外観ストリームと運動ストリームは、それぞれ独立した表現に統合されるのが最適である。さらに、本研究で提案する表現は、HMDB51、UCF101、Charadesの動画分類ベンチマークにおいて、二重ストリームベースアーキテクチャを大幅に上回り（相対的に13%の改善）、類似のベースアーキテクチャを持つ他のベースラインよりも優れた性能を示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

4ヶ月前

畳み込みニューラルネットワーク

ビデオ処理

アプローチ／フレームワーク

コンピュータビジョン

Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan

概要

本研究では、動画全体の空間時間領域にわたって局所的な畳み込み特徴を統合する新しい動画表現を提案する。この表現は、最先端の二重ストリームネットワークと学習可能な空間時間特徴統合を組み合わせることで実現される。その結果得られるアーキテクチャは、動画全体の分類に対してエンド・ツー・エンドで訓練可能である。空間と時間方向におけるプーリング戦略、および異なるストリームからの信号の統合方法について検討した結果、以下のことが明らかになった：(i) 空間と時間方向を同時にプーリングすることが重要であり、(ii) 外観ストリームと運動ストリームは、それぞれ独立した表現に統合されるのが最適である。さらに、本研究で提案する表現は、HMDB51、UCF101、Charadesの動画分類ベンチマークにおいて、二重ストリームベースアーキテクチャを大幅に上回り（相対的に13%の改善）、類似のベースアーキテクチャを持つ他のベースラインよりも優れた性能を示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています