HyperAIHyperAI

Command Palette

Search for a command to run...

エゴセントリックな行動の語彙を開く

Dibyadip Chatterjee; Fadime Sener; Shugao Ma; Angela Yao

概要

エゴセントリック動画における人間の行動は、手と物体の相互作用からなり、その相互作用は動詞(手が行う)と対象となる物体から構成されることが多い。しかし、エゴセントリックデータセットは依然として2つの制限に直面している - 行動の組み合わせの希少性と相互作用する物体の閉じた集合である。本論文では、新しいオープンボキャブラリーアクション認識タスクを提案する。訓練中に観察された一連の動詞と物体を基に、既知および未知の物体に対するオープンボキャブラリーの行動に動詞を一般化することが目的である。この目的達成のために、オブジェクト非依存型動詞エンコーダーとプロンプトベースのオブジェクトエンコーダーを使用して、動詞予測とオブジェクト予測を分離する。プロンプティングはCLIP表現を利用して、オープンボキャブラリーの相互作用する物体を予測する。EPIC-KITCHENS-100およびAssembly101データセット上でオープンボキャブラリーベンチマークを作成し、閉じた行動認識方法が一般化できない一方で、提案した方法は効果的であることが示された。さらに、我々のオブジェクトエンコーダーは未知の相互作用する物体を認識する点で既存のオープンボキャブラリー視覚認識方法よりも大幅に優れている。注:「エゴセントリック」は「第一人称視点」や「自己中心的」とも訳されますが、ここでは専門的な文脈で使用されているため「エゴセントリック」と訳しています。「CLIP」は一般的な技術用語であり、「クリップ」と訳すこともあります。ただし、「CLIP」の方が広く使用されているためこちらを使用しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
エゴセントリックな行動の語彙を開く | 記事 | HyperAI超神経