
摘要
物体姿态估计在具身人工智能(Embodied AI)和计算机视觉中发挥着至关重要的作用,使智能体能够理解和与周围环境互动。尽管类别级姿态估计具有实用性,但现有的方法在处理部分观测点云时遇到了多假设问题的挑战。在这项研究中,我们提出了一种新的解决方案,通过将类别级物体姿态估计重新定义为条件生成模型,从而摆脱了传统的点对点回归方法。利用基于得分的扩散模型,我们通过从扩散模型中采样候选姿态并经过两步过程聚合它们来估计物体姿态:首先通过似然估计滤除异常值,然后对剩余的候选姿态进行均值池化。为了避免在似然估计过程中高昂的积分计算成本,我们引入了一种替代方法,即从原始基于得分的模型训练一个能量模型,从而实现端到端的似然估计。我们的方法在REAL275数据集上取得了最先进的性能,在严格的5d2cm和5d5cm指标上分别超过了50%和60%。此外,我们的方法展示了强大的泛化能力,无需微调即可应用于具有相似对称属性的新类别,并且可以轻松适应物体姿态跟踪任务,其结果与当前最先进的基线相当。