6ヶ月前

ビデオ理解

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Li Fei-Fei Rahul Sukthankar Thomas Leung George Toderici Sanketh Shetty Andrej Karpathy

概要

畳み込みニューラルネットワーク（CNN）は、画像認識問題において強力なモデルクラスとして確立されている。これらの成果を受けて、487クラスに分類される100万本のYouTube動画から構成される新しいデータセットを用いて、大規模な動画分類においてCNNの広範な実証的評価を行った。本研究では、時間領域におけるCNNの接続性を拡張する複数のアプローチを検討し、局所的な空間時間的情報を活用する方法を提案する。また、マルチスケールかつ視錐部（foveated）構造を採用したアーキテクチャが、学習の高速化に有望であると示唆した。最良の空間時間ネットワークは、強力な特徴ベースのベースライン（55.3% → 63.9%）に対して顕著な性能向上を示したが、単一フレームモデルと比較すると、驚くべきほど小さな向上（59.3% → 60.9%）にとどまった。さらに、UCF-101アクション認識データセット上でトップ層を再学習することで、最良モデルの一般化性能を検証した結果、UCF-101ベースラインモデル（43.9%）と比較して顕著な性能向上（63.3%）が確認された。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ビデオ理解

畳み込みニューラルネットワーク

アプローチ／フレームワーク

コンピュータビジョン

Li Fei-Fei Rahul Sukthankar Thomas Leung George Toderici Sanketh Shetty Andrej Karpathy

概要

畳み込みニューラルネットワーク（CNN）は、画像認識問題において強力なモデルクラスとして確立されている。これらの成果を受けて、487クラスに分類される100万本のYouTube動画から構成される新しいデータセットを用いて、大規模な動画分類においてCNNの広範な実証的評価を行った。本研究では、時間領域におけるCNNの接続性を拡張する複数のアプローチを検討し、局所的な空間時間的情報を活用する方法を提案する。また、マルチスケールかつ視錐部（foveated）構造を採用したアーキテクチャが、学習の高速化に有望であると示唆した。最良の空間時間ネットワークは、強力な特徴ベースのベースライン（55.3% → 63.9%）に対して顕著な性能向上を示したが、単一フレームモデルと比較すると、驚くべきほど小さな向上（59.3% → 60.9%）にとどまった。さらに、UCF-101アクション認識データセット上でトップ層を再学習することで、最良モデルの一般化性能を検証した結果、UCF-101ベースラインモデル（43.9%）と比較して顕著な性能向上（63.3%）が確認された。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています