HyperAIHyperAI

Command Palette

Search for a command to run...

ビデオにおける動作認識のための二重ストリーム畳み込みニューラルネットワーク

Karen Simonyan Andrew Zisserman

概要

ビデオにおける動作認識のための、識別学習された深層畳み込みネットワーク(ConvNets)のアーキテクチャについて調査を行いました。課題は、静止画から得られる外観情報とフレーム間の動き情報を補完的に捉えることです。また、データ駆動型学習フレームワーク内で最高性能を発揮する手作業で設計された特徴量を一般化することも目指しています。本研究の貢献は三つあります。第一に、空間ネットワークと時間ネットワークを組み込んだ二つのストリームを持つConvNetアーキテクチャを提案します。第二に、多フレーム密集光学フロー上で訓練されたConvNetが限られた訓練データにもかかわらず非常に高い性能を達成できることを示します。第三に、異なる二つの動作分類データセットに対してマルチタスク学習を適用することで、訓練データの量を増やし、両方のデータセットでの性能向上につながることを示します。我々のアーキテクチャはUCF-101およびHMDB-51という標準的なビデオ動作ベンチマークで訓練および評価されました。これらのベンチマークにおいて、当アーキテクチャは最先端技術と競争力があり、さらに以前の深層ネットワークを使用したビデオ分類試みよりも大幅に優れた性能を発揮しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています