6 个月前

多模态表征

计算机视觉

Muhammad Saif Ullah Khan Muhammad Ferjad Naeem Federico Tombari Luc Van Gool Didier Stricker Muhammad Zeshan Afzal

摘要

我们提出了一种基于大语言模型（LLM）的新颖流程，仅利用辅助属性即可生成图像中人体姿态的上下文描述。该方法促进了MPII姿态描述数据集（MPII Pose Descriptions Dataset）的构建，该数据集包含17,367张包含人类活动的图像，涵盖410种不同动作的自然语言标注。我们验证了所生成姿态描述在零样本人类中心分类任务中的有效性，该任务基于CLIP模型实现。此外，我们提出了FocusCLIP框架，该框架在CLIP中引入了主体聚焦注意力机制（Subject-Focused Attention, SFA），以提升文本到图像的对齐能力。我们的模型在MPII姿态描述数据集上进行预训练，并在五个未见数据集上评估其零样本性能，覆盖三类任务。实验结果表明，FocusCLIP显著优于基线CLIP模型，平均准确率提升8.61%（达到33.65%，而CLIP为25.04%）。具体而言，我们在动作识别任务上提升3.98%，年龄分类任务上提升14.78%，情绪识别任务上提升7.06%。这些结果充分展示了将详细姿态描述与主体级引导信息融入通用预训练框架的潜力，可有效提升下游任务的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Muhammad Saif Ullah Khan Muhammad Ferjad Naeem Federico Tombari Luc Van Gool Didier Stricker Muhammad Zeshan Afzal

摘要

我们提出了一种基于大语言模型（LLM）的新颖流程，仅利用辅助属性即可生成图像中人体姿态的上下文描述。该方法促进了MPII姿态描述数据集（MPII Pose Descriptions Dataset）的构建，该数据集包含17,367张包含人类活动的图像，涵盖410种不同动作的自然语言标注。我们验证了所生成姿态描述在零样本人类中心分类任务中的有效性，该任务基于CLIP模型实现。此外，我们提出了FocusCLIP框架，该框架在CLIP中引入了主体聚焦注意力机制（Subject-Focused Attention, SFA），以提升文本到图像的对齐能力。我们的模型在MPII姿态描述数据集上进行预训练，并在五个未见数据集上评估其零样本性能，覆盖三类任务。实验结果表明，FocusCLIP显著优于基线CLIP模型，平均准确率提升8.61%（达到33.65%，而CLIP为25.04%）。具体而言，我们在动作识别任务上提升3.98%，年龄分类任务上提升14.78%，情绪识别任务上提升7.06%。这些结果充分展示了将详细姿态描述与主体级引导信息融入通用预训练框架的潜力，可有效提升下游任务的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供