HyperAIHyperAI

Command Palette

Search for a command to run...

デモンストレーション動画から対象画像へのアフォーダンスの根拠付け

Joya Chen Difei Gao Kevin Qinghong Lin Mike Zheng Shou

概要

人間は専門家のデモンストレーションから学び、自身の問題を解決する能力に優れています。この能力をARメガネなどの知能ロボットやアシスタントに付与するためには、デモンストレーション動画から人間の手の相互作用(すなわち、操作可能性)を抽出し、ユーザーのARメガネ視点のような目標画像に適用することが不可欠です。動画から画像への操作可能性の接地タスクは、(1) 微細な操作可能性を予測する必要性と、(2) 動画と画像の不一致を十分にカバーしていない限られた訓練データにより、困難となっています。これらの課題に対処するために、我々は操作可能性変換器(Affordance Transformer, Afformer)を提案します。Afformerは微細な変換器ベースのデコーダを持ち、段階的に操作可能性の接地を改善します。さらに、動画と画像の不一致に対する操作可能性の接地を強化するために、マスク付き操作可能性ハンド(Mask Affordance Hand, MaskAHand)という自己監督型前学習技術を導入しました。この技術は動画-画像データの合成とコンテクスト変化のシミュレーションを行い、動画と画像の不一致に対する操作可能性の接地性能を向上させます。MaskAHand前学習を使用したAfformerは複数のベンチマークで最先端の性能を達成しており、OPRAデータセットでは実質的な37%の改善が見られています。コードはhttps://github.com/showlab/afformer で公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています