HyperAI超神经

我们提出了一项全新的任务：在包含可移动物体的三维场景中，实现文本控制的人体-物体交互生成。现有的人体-场景交互数据集普遍存在交互类别不足的问题，且通常仅考虑与静态物体的交互（即物体位置不发生改变），而收集包含可移动物体的此类数据集则面临困难且成本高昂。为解决这一问题，我们通过将现有的人体-物体交互数据与场景上下文对齐，构建了面向三维场景中可移动物体交互的InteractMove数据集，该数据集具有三个关键特性：1）场景中包含多个可移动物体，并支持文本控制的交互指令（包括同类别干扰物，需模型具备空间关系与三维场景上下文理解能力）；2）涵盖多种类型与尺寸的物体，以及多样化的交互模式（如单手、双手交互等）；3）生成符合物理规律的物体操作轨迹。由于引入了多种可移动物体，该任务更具挑战性，模型需准确识别目标交互物体，学习与不同尺寸和类别物体进行交互，并有效避免可移动物体与场景之间的碰撞。为应对上述挑战，我们提出了一种新颖的端到端处理流程。首先，利用三维视觉定位模型识别交互目标物体；随后，提出一种手-物体联合可操作性学习机制，用于预测不同手部关节与物体各部分之间的接触区域，从而实现对多样化物体的精准抓取与操作；最后，通过局部场景建模与碰撞规避约束优化交互过程，确保生成动作在物理上合理，并避免物体与场景之间的碰撞。大量实验结果表明，相较于现有方法，本方法在生成符合物理规律且满足文本指令的交互行为方面展现出显著优势。

InteractMove：基于文本控制的3D场景中可移动物体的人-物交互生成

Xinhao Cai Minghang Zheng Xin Jin Yang Liu

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

InteractMove：基于文本控制的3D场景中可移动物体的人-物交互生成

Xinhao Cai Minghang Zheng Xin Jin Yang Liu

摘要

用 AI 构建 AI

Hyper Newsletters