HyperAIHyperAI

Command Palette

Search for a command to run...

MotionBERT:学习人类运动表示的统一视角

Wentao Zhu Xiaoxuan Ma Zhaoyang Liu Libin Liu Wayne Wu Yizhou Wang

摘要

我们提出了一种统一的方法,通过从大规模和异构数据资源中学习人体运动表示来解决各种以人类为中心的视频任务。具体而言,我们设计了一个预训练阶段,在该阶段中,运动编码器被训练用于从有噪声的部分2D观测中恢复潜在的3D运动。通过这种方式获得的运动表示融合了几何、运动学和物理知识,可以轻松迁移到多个下游任务中。我们使用双流时空变换器(Dual-stream Spatio-temporal Transformer, DSTformer)神经网络实现了这一运动编码器。该网络能够全面且自适应地捕捉骨骼关节之间的长程时空关系,从零开始训练时表现出迄今为止最低的3D姿态估计误差。此外,我们的框架仅需通过简单的回归头(1-2层)对预训练的运动编码器进行微调,便在所有三个下游任务上达到了最先进的性能,这证明了所学运动表示的多功能性。代码和模型可在 https://motionbert.github.io/ 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供