8 个月前

计算机视觉

计算机视觉

Cesare Davide Pace* Alessandro Marco De Nunzio Claudio De Stefano Francesco Fontanella Mario Molinara

摘要

人体姿态估计是计算机视觉中的一个重要任务，涉及在图像和视频中检测和定位人体关节。尽管单帧姿态估计已经取得了显著进展，但其通常无法捕捉时间动态，从而难以理解复杂的连续动作。为此，我们提出了一种名为Poseidon的新颖多帧姿态估计架构，该架构通过整合时间信息扩展了ViTPose模型，以提高准确性和鲁棒性，解决上述局限性。Poseidon引入了几个关键创新点：（1）自适应帧加权（Adaptive Frame Weighting, AFW）机制，该机制根据帧的相关性动态地赋予不同权重，确保模型专注于最具信息量的数据；（2）多尺度特征融合（Multi-Scale Feature Fusion, MSFF）模块，该模块从不同的骨干层聚合特征，以捕捉细粒度细节和高层次语义；（3）交叉注意力（Cross-Attention）模块，用于中央帧和上下文帧之间有效交换信息，增强模型的时间连贯性。所提出的架构在复杂视频场景中提高了性能，并且具有可扩展性和计算效率，适用于实际应用。我们的方法在PoseTrack21和PoseTrack18数据集上实现了最先进的性能，分别达到了88.3和87.8的mAP分数，优于现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

计算机视觉

计算机视觉

Cesare Davide Pace* Alessandro Marco De Nunzio Claudio De Stefano Francesco Fontanella Mario Molinara

摘要

人体姿态估计是计算机视觉中的一个重要任务，涉及在图像和视频中检测和定位人体关节。尽管单帧姿态估计已经取得了显著进展，但其通常无法捕捉时间动态，从而难以理解复杂的连续动作。为此，我们提出了一种名为Poseidon的新颖多帧姿态估计架构，该架构通过整合时间信息扩展了ViTPose模型，以提高准确性和鲁棒性，解决上述局限性。Poseidon引入了几个关键创新点：（1）自适应帧加权（Adaptive Frame Weighting, AFW）机制，该机制根据帧的相关性动态地赋予不同权重，确保模型专注于最具信息量的数据；（2）多尺度特征融合（Multi-Scale Feature Fusion, MSFF）模块，该模块从不同的骨干层聚合特征，以捕捉细粒度细节和高层次语义；（3）交叉注意力（Cross-Attention）模块，用于中央帧和上下文帧之间有效交换信息，增强模型的时间连贯性。所提出的架构在复杂视频场景中提高了性能，并且具有可扩展性和计算效率，适用于实际应用。我们的方法在PoseTrack21和PoseTrack18数据集上实现了最先进的性能，分别达到了88.3和87.8的mAP分数，优于现有方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供