2ヶ月前

AVAのためのより良いベースライン

Rohit Girdhar; João Carreira; Carl Doersch; Andrew Zisserman
AVAのためのより良いベースライン
要約

AVAデータセットにおけるアクション局所化のための単純なベースラインを紹介します。本モデルは、Faster R-CNNのバウンディングボックス検出フレームワークを基盤としており、純粋な空間時間特徴量に適応させています。当該特徴量は、Kineticsで事前学習されたI3Dモデルによって排他的に生成されます。このモデルは、AVA v2.1のバリデーションセットにおいて21.9%の平均AP(Average Precision)を達成しました。これは、元のAVA論文で使用された最良のRGB空間時間モデル(KineticsとImageNetで事前学習)の14.5%から向上しており、またImageNetで事前学習されたResNet101画像特徴抽出器を使用する公開ベースラインの11.3%からも向上しています。最終的なモデルはバリデーション/テストセットにおいて22.8%/21.9%のmAP(mean Average Precision)を達成し、CVPR 2018でのAVAチャレンジへのすべての提出物を上回っています。