概要

物体との対話の学習は、体現された視覚的知能への重要な一歩ですが、既存の技術は重い監督やセンシング要件に苦しんでいます。本研究では、ビデオから直接人間-物体対話の「ホットスポット」を学習する手法を提案します。アフォーダンスを手動で監督されたセマンティックセグメンテーションタスクとして扱うのではなく、当手法は実際の人間の行動を記録したビデオを見ることによって対話を学習し、可能となるアクションを予測します。新しい画像やビデオが与えられた場合、当モデルは物体がどのように操作されるかを示す空間的なホットスポットマップを推論します——たとえその物体が現在静止している場合でもです。第一人称および第三者称のビデオによる結果を通じて、実際の人間-物体対話に基づくアフォーダンスの有用性を示しています。当研究で得られた弱い監督下でのホットスポットは、強い監督下でのアフォーダンス手法と競合するだけでなく、未知の物体カテゴリに対する対話も予測できます。

ソースPDF