2ヶ月前

デモンストレーション動画から対象画像へのアフォーダンスの根拠付け

Joya Chen; Difei Gao; Kevin Qinghong Lin; Mike Zheng Shou

要約

人間は専門家のデモンストレーションから学び、自身の問題を解決する能力に優れています。この能力をARメガネなどの知能ロボットやアシスタントに付与するためには、デモンストレーション動画から人間の手の相互作用（すなわち、操作可能性）を抽出し、ユーザーのARメガネ視点のような目標画像に適用することが不可欠です。動画から画像への操作可能性の接地タスクは、(1) 微細な操作可能性を予測する必要性と、(2) 動画と画像の不一致を十分にカバーしていない限られた訓練データにより、困難となっています。これらの課題に対処するために、我々は操作可能性変換器（Affordance Transformer, Afformer）を提案します。Afformerは微細な変換器ベースのデコーダを持ち、段階的に操作可能性の接地を改善します。さらに、動画と画像の不一致に対する操作可能性の接地を強化するために、マスク付き操作可能性ハンド（Mask Affordance Hand, MaskAHand）という自己監督型前学習技術を導入しました。この技術は動画-画像データの合成とコンテクスト変化のシミュレーションを行い、動画と画像の不一致に対する操作可能性の接地性能を向上させます。MaskAHand前学習を使用したAfformerは複数のベンチマークで最先端の性能を達成しており、OPRAデータセットでは実質的な37%の改善が見られています。コードはhttps://github.com/showlab/afformer で公開されています。