2ヶ月前
日常活動のインタラクティブなアクティビティのファーウショット分類 (InteractADL)
Durante, Zane ; Harries, Robathan ; Vendrow, Edward ; Luo, Zelun ; Kyuragi, Yuta ; Kozuka, Kazuki ; Fei-Fei, Li ; Adeli, Ehsan

要約
日常生活活動(ADLs)の理解は、介助ロボット、スマートホーム、医療などのさまざまなアプリケーションにとって重要なステップです。しかし、これまで複雑なADLs、特に家庭環境における多人数間の相互作用に焦点を当てたベンチマークや手法はほとんど存在していません。本論文では、人間(および物体)間の相互作用を含む複雑なADLsの理解のために新しいデータセットとベンチマークであるInteractADLを提案します。さらに、家庭環境で発生する複雑なADLsは、多人数間の相互作用が稀であるため長尾分布を呈し、意味的にも視覚的にも類似したクラスが存在することから細かい粒度の視覚認識課題をもたらします。これらの問題に対処するために、最適なクラス名ベクトルを学習することでより高い意味的な分離性を実現する新しい手法であるName Tuning(名前調整)を提案します。私たちはName Tuningが既存のプロンプト調整戦略と組み合わせて使用できることを示し、プロンプトやクラス名だけでなく入力テキスト全体を学習できる点で改善された性能をInteractADLおよび他の4つの細かい粒度の視覚分類ベンチマークにおいて示しています。透明性と再現性のために、コードをhttps://github.com/zanedurante/vlm_benchmark で公開しています。