2ヶ月前

コンテクストに基づく行動認識におけるR*CNNの利用

Georgia Gkioxari; Ross Girshick; Jitendra Malik
コンテクストに基づく行動認識におけるR*CNNの利用
要約

画像には、人がどのような行動を行っているかを示す複数の手がかりが含まれています。例えば、ジョギングをする人の姿勢はジョギング特有のものですが、シーン(例:道路、トレイル)や他のジョガーの存在も情報源となります。本研究では、行動には文脈的な手がかりが伴うという単純な観察に基づき、強力な行動認識システムを構築しました。RCNNを改良し、分類に複数の領域を使用しつつ、行動の位置特定能力を維持しています。当システムをRCNNと呼びます。行動固有のモデルと特徴マップは共同で学習され、行動固有の表現が形成されるようになっています。RCNNはPASAL VOC Actionデータセットにおいて平均AP 90.2%を達成しており、既存の手法よりも大幅に優れた性能を発揮しています。最後に、R*CNNが行動認識に限定されないことを示します。特に、属性分類などの細かいタスクにも適用可能であることが挙げられます。この主張はBerkeley Attributes of Peopleデータセットにおける最先端の性能によって確認されています。

コンテクストに基づく行動認識におけるR*CNNの利用 | 最新論文 | HyperAI超神経