2 个月前

CapeLLM：基于多模态大语言模型的无支持类别无关姿态估计

Kim, Junho ; Chung, Hyungjin ; Kim, Byung-Hoon

摘要

类别无关的姿态估计（CAPE）传统上依赖于带有注释关键点的支持图像，这一过程往往繁琐且可能无法完全捕捉到不同物体类别之间的必要对应关系。近期的研究开始探索基于文本查询的方法，消除了对支持关键点的需求。然而，如何最优地利用文本描述关键点仍然是一个未充分研究的领域。在本工作中，我们引入了CapeLLM，这是一种新颖的方法，通过利用基于文本的多模态大语言模型（MLLM）来进行CAPE。我们的方法仅使用查询图像和详细的文本描述作为输入来估计类别无关的关键点。我们进行了广泛的实验，系统地探讨了基于大语言模型（LLM）的CAPE的设计空间，研究了选择最佳关键点描述、神经网络架构和训练策略等因素。得益于预训练MLLM的高级推理能力，CapeLLM展示了卓越的泛化能力和稳健性能。我们的方法在具有挑战性的1-shot设置下，在MP-100基准测试中达到了新的最先进水平，标志着类别无关姿态估计领域的重大进展。