2 个月前

面向鲁棒和平滑的单目视频多人三维姿态估计

Park, Sungchan ; You, Eunyi ; Lee, Inhoe ; Lee, Joonseok
面向鲁棒和平滑的单目视频多人三维姿态估计
摘要

三维姿态估计是计算机视觉中一项极其重要的任务,具有广泛的实际应用。特别是从单目视频中进行多人三维姿态估计(3DMPPE)尤为具有挑战性,目前在野外场景中的应用仍十分有限。现有方法存在三个尚未解决的问题:训练过程中对未见过视角的鲁棒性不足、易受遮挡影响以及输出结果严重抖动。为了解决这些问题,我们提出了POTR-3D,这是首个实现序列到序列2D转3D提升模型的3DMPPE方法,该模型采用了一种新颖的几何感知数据增强策略,能够在关注地面平面和遮挡的情况下生成无限多视角的数据。通过大量实验验证,我们证明了所提出的模型和数据增强方法能够稳健地泛化到各种未见过的视角、在严重遮挡情况下可靠地恢复姿态,并且能够生成更加自然和平滑的输出结果。我们的方法不仅在公开基准测试中达到了最先进的性能,还在更具挑战性的野外视频中取得了定性的良好效果。演示视频可访问 https://www.youtube.com/@potr3d。