2ヶ月前
SHARP: 距離情報を用いた疑似深度による手と腕のセグメンテーション — 自己中心的な3次元手姿勢推定および動作認識の向上のために
Mucha, Wiktor ; Wray, Michael ; Kampel, Martin

要約
手の姿勢は、ユーザーが物体と相互作用する第一人称視点における行動認識において重要な情報を表します。本研究では、深度センサに依存せずにRGBフレームのみを使用して第一人称視点の3D手の姿勢推定を改善するために擬似深度画像を利用することを提案します。最先端の単一RGB画像からの深度推定技術を用いて、フレームの擬似深度表現を生成し、距離情報を利用してシーン内の関連ない部分をセグメンテーションします。生成された深度マップは、RGBフレームのセグメンテーションマスクとして使用されます。H2Oデータセットでの実験結果は、我々の方法が行動認識タスクにおいて高い精度で推定された姿勢を確認しています。3D手の姿勢と物体検出から得られる情報は、トランスフォーマーに基づく行動認識ネットワークによって処理され、91.73%という精度が達成され、すべての最先端手法を上回っています。3D手の姿勢の推定は平均ポーズ誤差28.66 mmで既存手法と競合する性能を示しており、この方法は距離情報を用いて第一人称視点の3D手の姿勢推定を行う新しい可能性を開きます。この翻訳では、専門的な用語や技術的概念について一般的な日本語訳を使用し、文章構造も日本語読者にとって自然に理解できるように調整しました。また、正式かつ客観的な科技ニュースや学術論文の書き方スタイルに則って翻訳を行いました。