2 个月前

X-Pose:检测任意关键点

Yang, Jie ; Zeng, Ailing ; Zhang, Ruimao ; Zhang, Lei
X-Pose:检测任意关键点
摘要

本研究旨在解决一个高级的关键点检测问题:如何在复杂的现实场景中准确检测任何关键点,这些场景涉及大量、杂乱且开放式的物体及其相关的关键点定义。当前高性能的关键点检测器由于其两阶段方案、未充分探索的提示设计以及有限的训练数据,往往难以应对这一问题。为了解决这一差距,我们提出了一种名为X-Pose的新颖端到端框架,该框架利用多模态(即视觉、文本或它们的组合)提示来检测图像中任意关节(例如人类和动物)、刚性和软性物体的多目标关键点。此外,我们引入了一个大规模的数据集UniKPT,该数据集统一了13个关键点检测数据集中的338个关键点,涵盖了1,237个类别下的40万实例。通过使用UniKPT进行训练,X-Pose有效地实现了文本到关键点和图像到关键点的对齐,这得益于基于跨模态对比学习的多模态提示之间的相互增强。实验结果表明,在各自公平的设置下,X-Pose相对于最先进的非提示、基于视觉提示和基于文本提示的方法分别取得了27.7 AP、6.44 PCK和7.0 AP的显著改进。更重要的是,在野外测试中,X-Pose展示了其在不同图像风格、物体类别和姿态下的强大细粒度关键点定位能力和泛化能力,为实际应用中的多目标关键点检测开辟了新的路径。我们的代码和数据集可在https://github.com/IDEA-Research/X-Pose获取。