HyperAIHyperAI
منذ 2 أشهر

PoseFormerV2: استكشاف مجال التردد لتقدير الوضعية ثلاثية الأبعاد للإنسان بكفاءة ومتانة

Zhao, Qitao ; Zheng, Ce ; Liu, Mengyuan ; Wang, Pichao ; Chen, Chen
PoseFormerV2: استكشاف مجال التردد لتقدير الوضعية ثلاثية الأبعاد للإنسان بكفاءة ومتانة
الملخص

في الآونة الأخيرة، حققت الطرق المستندة إلى المتحولات (transformer-based methods) نجاحًا كبيرًا في تقدير وضع الإنسان من二维到三维的序列转换(sequential 2D-to-3D lifting human pose estimation)。作为开创性的工作,PoseFormer通过级联的变压器层捕捉每个视频帧中人体关节的空间关系以及跨帧的人体动态,取得了令人印象深刻的效果。然而,在实际场景中,PoseFormer及其后续工作的性能受到两个因素的限制:(a) 输入关节序列的长度;(b) 2D关节检测的质量。现有方法通常对输入序列的所有帧应用自注意力机制,当为了获得更高的估计精度而增加帧数时,这会导致巨大的计算负担,并且它们对由2D关节检测器有限能力自然带来的噪声并不鲁棒。在本文中,我们提出了PoseFormerV2,该方法利用频率域中的紧凑表示来有效地扩展感受野并提高对噪声2D关节检测的鲁棒性。通过对PoseFormer进行最小修改,所提出的方法有效融合了时间域和频率域中的特征,比其前身具有更好的速度-精度权衡。在两个基准数据集(即Human3.6M和MPI-INF-3DHP)上进行的广泛实验表明,所提出的方法显著优于原始的PoseFormer和其他基于变压器的变体。代码已发布在\url{https://github.com/QitaoZhao/PoseFormerV2}。修正后的翻译:في السنوات الأخيرة، حققت الطرق المستندة إلى المتحولات (transformer-based methods) نجاحًا كبيرًا في تقدير وضع الإنسان من التحويل الثنائي الأبعاد إلى الثلاثي الأبعاد بشكل تتابعي (sequential 2D-to-3D lifting human pose estimation). كعمل رائد، يلتقط PoseFormer العلاقات المكانية للعظام البشرية في كل إطار فيديو والديناميكيات البشرية عبر الإطارات باستخدام طبقات المتحولات المتسلسلة (cascaded transformer layers)، مما أدى إلى تحقيق أداء متميز. ومع ذلك، في السيناريوهات الحقيقية، يُحدَّد أداء PoseFormer وأعمال اللاحقة له بعاملين: (أ) طول سلسلة العظام المدخلة؛ (ب) جودة اكتشاف العظام ثنائية الأبعاد. عادةً ما تطبق الأساليب الحالية آلية الانتباه الذاتي على جميع إطارات السلسلة المدخلة، مما يؤدي إلى عبء حسابي ضخم عندما يتم زيادة عدد الإطارات للحصول على دقة تقدير متقدمة، كما أنها ليست مقاومة للضوضاء الذي يأتي بشكل طبيعي بسبب قدرة محدودة للكاشفات ثنائية الأبعاد للعظام. في هذا البحث، نقترح PoseFormerV2، وهو يستخدم تمثيلًا مضغوطًا لمتتابعات الهيكل العظمي الطويلة في المجال الترددي لتوسيع مجال الاستقبال بكفاءة وتعزيز مقاومته للضوضاء في اكتشاف العظام ثنائية الأبعاد. مع تعديلات بسيطة على PoseFormer، يدمج الطريقة المقترحة الخصائص بشكل فعال في المجال الزمني والمجال التردد، مما يجعلها تتمتع بtrade-off أفضل بين السرعة والدقة مقارنة بالنسخ السابقة منها. تُظهر التجارب الواسعة التي أجريت على مجموعة بيانات مرجعية هي Human3.6M و MPI-INF-3DHP أن النهج المقترح يتفوق بشكل كبير على PoseFormer الأصلي وغيرها من النسخ المستندة إلى المتحولات.注释:1. "贸易off" 被翻译为 "trade-off" 并保留英文形式,因为这是一个常见的技术术语。2. 数据集名称 "Human3.6M" 和 "MPI-INF-3DHP" 保持不变,以确保准确性。3. 网址 \url{https://github.com/QitaoZhao/PoseFormerV2} 也保持不变。最终版本:في السنوات الأخيرة، حققت الطرق المستندة إلى المتحولات (transformer-based methods) نجاحًا كبيرًا في تقدير وضع الإنسان من التحويل الثنائي الأبعاد إلى الثلاثي الأبعاد بشكل تتابعي (sequential 2D-to-3D lifting human pose estimation). كعمل رائد، يلتقط PoseFormer العلاقات المكانية للعظام البشرية في كل إطار فيديو والديناميكيات البشرية عبر الإطارات باستخدام طبقات المتحولات المتسلسلة (cascaded transformer layers)، مما أدى إلى تحقيق أداء متميز. ومع ذلك، في السيناريوهات الحقيقية، يُحدَّد أداء PoseFormer وأعمال اللاحقة له بعاملين: (أ) طول سلسلة العظام المدخلة؛ (ب) جودة اكتشاف العظام ثنائية الأبعاد. عادةً ما تطبق الأساليب الحالية آلية الانتباه الذاتي على جميع إطارات السلسلة المدخلة، مما يؤدي إلى عبء حسابي ضخم عندما يتم زيادة عدد الإطارات للحصول على دقة تقدير متقدمة، كما أنها ليست مقاومة للضوضاء الذي يأتي بشكل طبيعي بسبب قدرة محدودة للكاشفات ثنائية الأبعاد للعظام. في هذا البحث، نقترح PoseFormerV2، وهو يستخدم تمثيلًا مضغوطًا لمتتابعات الهيكل العظمي الطويلة في المجال الترددي لتوسيع مجال الاستقبال بكفاءة وتعزيز مقاومته للضوضاء في اكتشاف العظام ثنائية الأبعاد. مع تعديلات بسيطة على PoseFormer، يدمج الطريقة المقترحة الخصائص بشكل فعال في المجال الزمني والمجال التردد، مما يجعلها تتمتع بـ trade-off أفضل بين السرعة والدقة مقارنة بالنسخ السابقة منها. تُظهر التجارب الواسعة التي أجريت على مجموعة بيانات مرجعية هي Human3.6M و MPI-INF-3DHP أن النهج المقترح يتفوق بشكل كبير على PoseFormer الأصلي وغيرها من النسخ المستندة إلى المتحولات.الرمز البرمجي متاح على الرابط: \url{https://github.com/QitaoZhao/Pose FormerV2}

PoseFormerV2: استكشاف مجال التردد لتقدير الوضعية ثلاثية الأبعاد للإنسان بكفاءة ومتانة | أحدث الأوراق البحثية | HyperAI