ビデオ・トゥ・イメージ・アフォーダンス・グラウンディング

「ビデオから画像へのアフォーダンス接地」は、コンピュータビジョンのサブタスクの一つで、デモンストレーションビデオ内の手の相互作用領域を分析し、対象画像上に操作熱マップを生成し、特定の操作動作(押す、回すなど)を注釈付けることを目指しています。このタスクは、物体の操作可能な部分とその機能を正確に特定でき、ロボット操作、ヒューマンコンピュータインタラクション、拡張現実技術などの分野で重要な応用価値を持っています。

ビデオ・トゥ・イメージ・アフォーダンス・グラウンディング | SOTA | HyperAI超神経