Command Palette
Search for a command to run...
{Daniel Yang Te-Lin Wu Silvio Savarese Kuan Fang Joseph J. Lim}

要約
エキスパートのデモンストレーションを観察することは、人間およびロボットが未確認の物体の機能的可能性(アフォーダンス)を理解する上で重要な手法である。本論文では、デモンストレーション動画の特徴埋め込みを用いた物体のアフォーダンス推論という問題に着目する。我々は、デモンストレーション動画から埋め込みベクトルを抽出し、同一物体のターゲット画像に対してインタラクション領域と動作ラベルを予測することができる「Demo2Vec」モデルを提案する。また、多様なYouTube製品レビュー動画を収集・ラベル付けすることで、「アフォーダンス用オンライン製品レビューデータセット(OPRA)」を構築した。実験の結果、収集したデータセットにおいて、提案モデルであるDemo2Vecは複数の再帰型ニューラルネットワークベースラインを上回る性能を示した。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| video-to-image-affordance-grounding-on-opra | Demo2Vec | KLD: 2.34 Top-1 Action Accuracy: 40.79 |
| video-to-image-affordance-grounding-on-opra-1 | Demo2Vec | AUC-J: 0.85 KLD: 1.20 SIM: 0.48 |