
本研究旨在解决一个高级的关键点检测问题:如何在复杂的现实场景中准确检测任意关键点,这些场景涉及大量的、杂乱的、开放式的物体及其相关的关键点定义。现有的高性能关键点检测器由于其两阶段方案、未充分探索的提示设计以及有限的训练数据,往往难以应对这一问题。为了弥补这一差距,我们提出了X-Pose,这是一种新颖的端到端框架,通过多模态(即视觉、文本或它们的组合)提示来检测给定图像中的任何关节(articulated)、刚性和软性物体的关键点。さらに、私たちは13のキーポイント検出データセットを統合し、40万以上のインスタンスにわたる1,237のカテゴリと338のキーポイントを含む大規模なデータセットUniKPTを導入しました。UniKPTでの学習により、X-Poseはクロスモダリティ対照学習に基づく多模態提示の相互強化により、テキストからキーポイントへの対応と画像からキーポイントへの対応を効果的に整合させます。実験結果は、それぞれの公平な設定において最新の非提示型、視覚的な提示型、およびテキストベースの提示型手法に対して27.7 AP、6.44 PCK、7.0 APという顕著な改善を達成したことを示しています。さらに重要なのは、野生環境でのテストがX-Poseが異なる画像スタイル、物体カテゴリ、ポーズに対して優れた細かいキーポイント位置特定能力和一般化能力を持つことを証明しており、これは実際のアプリケーションにおける多物体キーポイント検出に新たな道を開きます。私たちのコードとデータセットはhttps://github.com/IDEA-Research/X-Poseで公開されています。注:- "articulated" は「関節のある」または「可動部のある」と訳すことが多いですが、「任意の」や「様々な」などの意味も含まれているため、「任意」を使用しました。- "in-the-wild" は一般的に「野生環境での」と訳しますが、「複雑な現実世界での」というニュアンスも持つことがあります。- "AP" と "PCK" は一般的に使用される評価指標であるためそのまま使用しました。