2ヶ月前

デモンストレーション動画から視覚的アフォーダンスの接地を学習する

Hongchen Luo; Wei Zhai; Jing Zhang; Yang Cao; Dacheng Tao
デモンストレーション動画から視覚的アフォーダンスの接地を学習する
要約

視覚的アフォーダンスの位置づけは、画像や動画から人間と物体との間で可能なすべての相互作用領域をセグメンテーションすることを目指しており、ロボットの把持や行動認識などの多くの応用に有益です。しかし、既存の手法は主に物体の外観特徴を用いて画像の各領域をセグメンテーションするため、以下の2つの問題が生じています:(i) 物体には人間が相互作用する可能性のある複数の領域が存在します;(ii) 同一の物体領域でも複数の人間による相互作用が可能です。これらの問題に対処するために、我々はデモンストレーション動画における手の位置と動作によって提供される補助的な手がかりを利用し、複数の可能性を排除し、物体内の相互作用領域をより正確に位置づけるための手助けアフォーダンス位置づけネットワーク(Hand-aided Affordance Grounding Network, HAGNet)を提案します。具体的には、HAGNetはデモンストレーション動画と物体画像を処理するための二重分岐構造を持っています。動画分岐では、各フレーム内の手周辺の領域を強調する手助け注意機構(hand-aided attention)を導入し、その後LSTMネットワークを使用して動作特徴量を集約します。物体分岐では、動作クラスに基づいてネットワークが物体の異なる部分に焦点を当てるようになる意味的な強化モジュール(Semantic Enhancement Module, SEM)を導入し、蒸留損失(distillation loss)を利用して物体分岐と動画分岐の出力特徴量を合わせて、動画分岐からの知識を物体分岐へ転送します。2つの困難なデータセットに対する定量的および定性的評価により、我々の手法はアフォーダンス位置づけにおいて最先端の結果を達成していることが示されました。本研究で使用したソースコードは公開される予定です。

デモンストレーション動画から視覚的アフォーダンスの接地を学習する | 最新論文 | HyperAI超神経