1ヶ月前

シーンフローからアクションマップ:RGB-Dを基にした行動認識のための畳み込みニューラルネットワークによる新しい表現

Pichao Wang; Wanqing Li; Zhimin Gao; Yuyao Zhang; Chang Tang; Philip Ogunbona
シーンフローからアクションマップ:RGB-Dを基にした行動認識のための畳み込みニューラルネットワークによる新しい表現
要約

シーンフローは、現実世界における3次元物体の動きを記述し、3次元動作認識の良い特徴量の基礎となる可能性があります。しかし、特に畳み込みニューラルネットワーク(ConvNets)の文脈での動作認識への応用については、これまで研究が行われていませんでした。本論文では、RGB-Dデータからシーンフローを抽出し、それを動作認識に利用する方法を提案します。従来の研究では、深度とRGBモダリティを別々のチャネルとして扱い、後段で特徴量を融合していました。我々は異なるアプローチを取り、モダリティを一つのエンティティとして捉え、最初から動作認識に向けた特徴量抽出を行うことを提案します。シーンフローを使用した動作認識に関する2つの重要な問いについて考察します:シーンフローベクトルをどのように整理するか、そしてビデオの長期的な動態をシーンフローに基づいてどのように表現するかです。既存のデータセットでシーンフローを正確に計算するために、カメラパラメータに関する知識なしでRGBと深度データを空間的に合わせる効果的な自己校正方法を提案します。シーンフローベクトルに基づき、新しい表現である「シーンフローアクションマップ」(SFAM)を提案します。この表現は、動作認識のために複数の長期的な時空間動態を記述します。さらに、訓練されたConvNetsモデルがImageNet上で最適に機能する色空間に類似したものへとシーンフローベクトルを変換するチャネル変換カーネルを採用しています。この変換により、ImageNet上で訓練されたConvNetsモデルがより効果的に活用されます。実験結果は、この新しい表現が2つの大規模公開データセットにおいて最先端手法を超える性能を持つことを示しています。

シーンフローからアクションマップ:RGB-Dを基にした行動認識のための畳み込みニューラルネットワークによる新しい表現 | 最新論文 | HyperAI超神経