Command Palette
Search for a command to run...
RGB-D動画から人間の活動と物体の機能を学習する
RGB-D動画から人間の活動と物体の機能を学習する
Hema Swetha Koppula Rudhir Gupta Ashutosh Saxena
概要
人間の活動を理解し、物体の機能性(アフォーダンス)を認識することは、特に人間環境で動作するパーソナルロボットにとって非常に重要なスキルです。本研究では、人間が行う部分活動の系列に記述的なラベル付けを行う問題と、より重要なことに、それらの活動における物体との相互作用をアフォーダンスとして抽出する問題を取り扱います。RGB-Dビデオが与えられた場合、人間の活動と物体のアフォーダンスをマルコフ確率場として同時モデリングします。ここで、ノードは物体と部分活動を表し、エッジは物体のアフォーダンス間の関係、部分活動との関連性、および時間的な進化を表します。学習問題は構造化サポートベクターマシン(SSVM)アプローチを使用して定式化され、異なる時間的セグメンテーションにおけるラベル付けが潜在変数として考慮されます。我々は4人の被験者から収集した120本の活動ビデオからなる難易度の高いデータセットで方法を検証し、アフォーダンスに対する精度79.4%、部分活動に対する精度63.4%、高レベルな活動ラベル付けに対する精度75.0%を得ました。その後、PR2ロボットが支援タスクを行う際におけるこのような記述的なラベル付けの利用可能性を示しました。注:「アフォーダンス」(affordance)という言葉は日本語でも専門用語として使用されることが多いため、そのまま使用しています。