11日前
ジェスチャー認識のための空間時系列マルチレイヤーパーセプトロン
Adrian Holzbock, Alexander Tsaregorodtsev, Youssef Dawoud, Klaus Dietmayer, Vasileios Belagiannis

要約
自律走行車と人間との相互作用において、ジェスチャー認識は不可欠である。現在のアプローチは、画像特徴、キーポイント、ボーンベクトルなどの複数モダリティを統合することに焦点を当てているが、本研究では、身体骨格データのみを入力として用いるニューラルネットワークアーキテクチャを提案し、最先端の性能を達成した。自律走行車の文脈におけるジェスチャー認識のため、時空間マルチレイヤーパーセプトロン(spatio-temporal multilayer perceptron)を設計した。時間的に変化する3次元身体ポーズを入力として、時間領域および空間領域の両方で特徴を抽出するための時空間混合演算を定義した。さらに、Squeeze-and-Excitation層を用いて各時刻ステップの重要度を再重み付けすることで、時系列情報の効果的な捕捉を実現した。本手法の有効性を検証するため、TCGおよびDrive&Actデータセットを用いた広範な評価を実施した。その結果、本手法が優れた性能を発揮することが示された。さらに、提案モデルを自律走行車に実装し、リアルタイム処理能力および安定した実行性能を実証した。