
要約
私たちは現在、最大規模の人間の行動データセットであるUCF101を紹介します。このデータセットは101の行動クラス、13,000以上のクリップ、および27時間のビデオデータで構成されています。データベースには、カメラの動きや複雑な背景を含む現実的なユーザーがアップロードしたビデオが含まれています。さらに、標準的な単語袋アプローチを使用して、この新しいデータセットでの基準となる行動認識結果を提供し、全体的な性能は44.5%でした。私たちの知る限り、UCF101はその多くのクラス数、多くのクリップ数、そしてこれらのクリップの制約のない性質により、現在最も挑戦的な行動データセットとなっています。