Command Palette
Search for a command to run...
Xinhao Cai Minghang Zheng Xin Jin Yang Liu

要約
我々は、移動可能な物体を含む3Dシーンにおけるテキスト制御型人間-物体インタラクション生成という新たなタスクを提案する。既存の人間-シーンインタラクションデータセットは、インタラクションのカテゴリが不足しており、通常は物体の位置が変化しない静的物体とのみインタラクションを考慮している。一方で、移動可能な物体を含むデータセットの収集は、困難かつ高コストである。この問題に対処するため、既存の人間-物体インタラクションデータをシーンコンテキストと整合させることで、移動可能な人間-物体インタラクションを対象とする「InteractMove」データセットを構築した。本データセットは以下の3つの特徴を持つ:1)複数の移動可能な物体を含むシーンと、テキストによって制御されるインタラクション仕様(同一カテゴリの干渉物体を含み、空間的および3Dシーンコンテキストの理解を要する)、2)多様な物体種類・サイズと、異なるインタラクションパターン(片手、両手など)を備える、3)物理的に現実的な物体操作軌道を有する。移動可能な物体を導入したことにより、このタスクはより困難なものとなる。モデルは、対象となる物体を正確に識別し、異なるサイズやカテゴリの物体とインタラクションする能力を学習する必要があり、さらに移動可能な物体とシーンとの衝突を回避しなければならない。このような課題に対応するため、我々は新たなパイプライン手法を提案する。まず、3D視覚接地モデルを用いてインタラクション対象の物体を特定する。次に、手と物体の共同アフォーダンス学習を提案し、異なる手関節と物体部位における接触領域を予測することで、多様な物体に対する正確な把持および操作を実現する。最後に、局所シーンモデリングと衝突回避制約を用いた最適化により、物理的に現実的な運動を確保するとともに、物体とシーン間の衝突を回避する。包括的な実験により、従来手法と比較して、本手法が物理的に妥当かつテキストに準拠したインタラクション生成において優れた性能を発揮することが実証された。