7ヶ月前

畳み込みニューラルネットワーク

コンピュータビジョン

アプローチ／フレームワーク

コンピュータビジョン

Shugao Ma Sarah Adel Bargal Jianming Zhang Leonid Sigal Stan Sclaroff

概要

最近、数百万の動画を収集してCNN（畳み込みニューラルネットワーク）モデルを動画内の動作認識のために訓練する試みがなされています。しかし、そのような大規模な動画データセットを作成するには膨大な人的労力が必要であり、数百万の動画でCNNを訓練するには莫大な計算リソースが必要です。一方、Webから動作画像を収集することははるかに容易で、画像での訓練ははるかに少ない計算量を必要とします。さらに、ラベル付きのWeb画像は一般的に識別的な動作姿勢を含んでおり、これは動画の時間的進行の識別部分を強調します。本研究では、Web上の動作画像を利用することでより良いCNNモデルを動画内の動作認識のために訓練できるかどうかを探ります。UCF101動作ビデオデータセットに含まれる101の動作を描いた23,800枚の手作業でフィルタリングされたWeb画像を収集しました。これらのWeb上の動作画像と動画を組み合わせて訓練を行うことで、CNNモデルの性能が大幅に向上することを示しています。次に、クロールされたWeb画像（未フィルタリング）を使用してUCF101およびActivityNet向けにプロセスのスケーラビリティを探りました。1620万枚のビデオフレームを393,000枚の未フィルタリング画像で置き換えることで、同等の性能を得ることができました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

畳み込みニューラルネットワーク

コンピュータビジョン

アプローチ／フレームワーク

コンピュータビジョン

Shugao Ma Sarah Adel Bargal Jianming Zhang Leonid Sigal Stan Sclaroff

概要

最近、数百万の動画を収集してCNN（畳み込みニューラルネットワーク）モデルを動画内の動作認識のために訓練する試みがなされています。しかし、そのような大規模な動画データセットを作成するには膨大な人的労力が必要であり、数百万の動画でCNNを訓練するには莫大な計算リソースが必要です。一方、Webから動作画像を収集することははるかに容易で、画像での訓練ははるかに少ない計算量を必要とします。さらに、ラベル付きのWeb画像は一般的に識別的な動作姿勢を含んでおり、これは動画の時間的進行の識別部分を強調します。本研究では、Web上の動作画像を利用することでより良いCNNモデルを動画内の動作認識のために訓練できるかどうかを探ります。UCF101動作ビデオデータセットに含まれる101の動作を描いた23,800枚の手作業でフィルタリングされたWeb画像を収集しました。これらのWeb上の動作画像と動画を組み合わせて訓練を行うことで、CNNモデルの性能が大幅に向上することを示しています。次に、クロールされたWeb画像（未フィルタリング）を使用してUCF101およびActivityNet向けにプロセスのスケーラビリティを探りました。1620万枚のビデオフレームを393,000枚の未フィルタリング画像で置き換えることで、同等の性能を得ることができました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています