2ヶ月前

Quo Vadis, アクション認識? 新しいモデルとキネティックスデータセット

Joao Carreira; Andrew Zisserman
Quo Vadis, アクション認識? 新しいモデルとキネティックスデータセット
要約

現在のアクション分類データセット(UCF-101およびHMDB-51)における動画の不足は、優れた動画アーキテクチャを特定することを難しくしており、ほとんどの手法が既存の小規模ベンチマークデータセットで同程度の性能を示しています。本論文では、新しいキネティックス・ヒューマン・アクション・ビデオデータセットの観点から最先端のアーキテクチャを見直します。キネティックスは、400の人間行動クラスと各クラスあたり400以上のクリップを含み、現実的で挑戦的なYouTube動画から収集されたものであり、既存データセットよりも2桁多いデータ量を持っています。私たちはこのデータセットでのアクション分類タスクにおいて現在のアーキテクチャがどのように機能するか、そしてキネティックスでの事前学習後に小規模ベンチマークデータセットでの性能がどれだけ向上するかについて分析を提供します。また、2次元ConvNetインフレーションに基づく新しいツーストリーム・インフレーテッド3Dコンボルーションネットワーク(I3D)を導入します。非常に深い画像分類ConvNetsのフィルターとプーリングカーネルが3次元に拡張され、成功したImageNetアーキテクチャ設計やそのパラメータを利用しながら、動画からシームレスな空間時間特徴抽出器を学習することが可能になります。私たちは、キネティックスでの事前学習後、I3Dモデルがアクション分類における最先端の性能を大幅に向上させることを示しています。具体的には、HMDB-51で80.9%、UCF-101で98.0%の精度を達成しています。

Quo Vadis, アクション認識? 新しいモデルとキネティックスデータセット | 最新論文 | HyperAI超神経