2ヶ月前
少ない労力でより多くの成果を得る:ウェブ上の行動画像を用いたCNNの行動認識トレーニング
Shugao Ma; Sarah Adel Bargal; Jianming Zhang; Leonid Sigal; Stan Sclaroff

要約
最近、数百万の動画を収集してCNN(畳み込みニューラルネットワーク)モデルを動画内の動作認識のために訓練する試みがなされています。しかし、そのような大規模な動画データセットを作成するには膨大な人的労力が必要であり、数百万の動画でCNNを訓練するには莫大な計算リソースが必要です。一方、Webから動作画像を収集することははるかに容易で、画像での訓練ははるかに少ない計算量を必要とします。さらに、ラベル付きのWeb画像は一般的に識別的な動作姿勢を含んでおり、これは動画の時間的進行の識別部分を強調します。本研究では、Web上の動作画像を利用することでより良いCNNモデルを動画内の動作認識のために訓練できるかどうかを探ります。UCF101動作ビデオデータセットに含まれる101の動作を描いた23,800枚の手作業でフィルタリングされたWeb画像を収集しました。これらのWeb上の動作画像と動画を組み合わせて訓練を行うことで、CNNモデルの性能が大幅に向上することを示しています。次に、クロールされたWeb画像(未フィルタリング)を使用してUCF101およびActivityNet向けにプロセスのスケーラビリティを探りました。1620万枚のビデオフレームを393,000枚の未フィルタリング画像で置き換えることで、同等の性能を得ることができました。