HyperAIHyperAI

Command Palette

Search for a command to run...

大規模なビデオ分類における畳み込みニューラルネットワークの活用

Li Fei-Fei Rahul Sukthankar Thomas Leung George Toderici Sanketh Shetty Andrej Karpathy

概要

畳み込みニューラルネットワーク(CNN)は、画像認識問題において強力なモデルクラスとして確立されている。これらの成果を受けて、487クラスに分類される100万本のYouTube動画から構成される新しいデータセットを用いて、大規模な動画分類においてCNNの広範な実証的評価を行った。本研究では、時間領域におけるCNNの接続性を拡張する複数のアプローチを検討し、局所的な空間時間的情報を活用する方法を提案する。また、マルチスケールかつ視錐部(foveated)構造を採用したアーキテクチャが、学習の高速化に有望であると示唆した。最良の空間時間ネットワークは、強力な特徴ベースのベースライン(55.3% → 63.9%)に対して顕著な性能向上を示したが、単一フレームモデルと比較すると、驚くべきほど小さな向上(59.3% → 60.9%)にとどまった。さらに、UCF-101アクション認識データセット上でトップ層を再学習することで、最良モデルの一般化性能を検証した結果、UCF-101ベースラインモデル(43.9%)と比較して顕著な性能向上(63.3%)が確認された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています