
要約
エゴセントリック動画における人間の行動は、手と物体の相互作用からなり、その相互作用は動詞(手が行う)と対象となる物体から構成されることが多い。しかし、エゴセントリックデータセットは依然として2つの制限に直面している - 行動の組み合わせの希少性と相互作用する物体の閉じた集合である。本論文では、新しいオープンボキャブラリーアクション認識タスクを提案する。訓練中に観察された一連の動詞と物体を基に、既知および未知の物体に対するオープンボキャブラリーの行動に動詞を一般化することが目的である。この目的達成のために、オブジェクト非依存型動詞エンコーダーとプロンプトベースのオブジェクトエンコーダーを使用して、動詞予測とオブジェクト予測を分離する。プロンプティングはCLIP表現を利用して、オープンボキャブラリーの相互作用する物体を予測する。EPIC-KITCHENS-100およびAssembly101データセット上でオープンボキャブラリーベンチマークを作成し、閉じた行動認識方法が一般化できない一方で、提案した方法は効果的であることが示された。さらに、我々のオブジェクトエンコーダーは未知の相互作用する物体を認識する点で既存のオープンボキャブラリー視覚認識方法よりも大幅に優れている。注:「エゴセントリック」は「第一人称視点」や「自己中心的」とも訳されますが、ここでは専門的な文脈で使用されているため「エゴセントリック」と訳しています。「CLIP」は一般的な技術用語であり、「クリップ」と訳すこともあります。ただし、「CLIP」の方が広く使用されているためこちらを使用しました。