Command Palette
Search for a command to run...
Multi-HMR: استعادة الشبكة البشرية الكاملة لعدة أشخاص في خطوة واحدة
Multi-HMR: استعادة الشبكة البشرية الكاملة لعدة أشخاص في خطوة واحدة
Fabien Baradel Matthieu Armando Salma Galaaoui Romain Brégier Philippe Weinzaepfel Grégory Rogez Thomas Lucas
الملخص
نقدم نموذج Multi-HMR، وهو نموذج قوي لاستعادة الشبكة البشرية ثلاثية الأبعاد لأكثر من شخص من صورة RGB واحدة. تشمل التوقعات الجسم بأكمله، أي اليدين والتعبيرات الوجهية، باستخدام نموذج SMPL-X المعلمي وموقع الشخص في نظام إحداثيات الكاميرا. يقوم النموذج بتحديد الأشخاص من خلال التنبؤ بمخططات حرارية ثنائية الأبعاد خشنة لمواقع الأشخاص، باستخدام الخصائص التي ينتجها هيكل رئيسي قياسي للترانزفومر البصري (Vision Transformer - ViT). ثم يقوم بتوقع وضع الجسم الكامل وشكله وموقعه الثلاثي الأبعاد باستخدام وحدة انتباه متقاطع جديدة تُعرف باسم رأس التنبؤ البشري (Human Prediction Head - HPH)، حيث يتم توجيه استفسار واحد إلى مجموعة كاملة من الخصائص لكل شخص تم اكتشافه. نظرًا لأن التنبؤ المباشر بالوضع الدقيق لليدين والتعبيرات الوجهية في تصوير واحد، أي دون الاعتماد على التقاط صور واضحة حول أجزاء الجسم، يعد صعبًا جدًا للتعلم من البيانات الموجودة، فقد قدمنا CUFFS، وهي مجموعة بيانات تحتوي على صور قريبة للموضوعات الكاملة للأشخاص الذين يظهرون بالقرب من الكاميرا مع وضعيات مختلفة لليدين. نوضح أن دمج هذه المجموعة في بيانات التدريب يعزز التوقعات بشكل أكبر، خاصة بالنسبة لليدين. يمكن لنموذج Multi-HMR أيضًا أن يأخذ في الاعتبار مواصفات الكاميرا الداخلية إذا كانت متاحة، وذلك عن طريق ترميز اتجاهات أشعة الكاميرا لكل علامة صورة. هذا التصميم البسيط يحقق أداءً قويًا في مقاييس الجسم الكامل والجسم فقط في آنٍ واحد: فهيكل رئيسي ViT-S على صور بحجم 448×448 يوفر بالفعل نموذجًا سريعًا ومنافسًا، بينما توفر النماذج الأكبر والدقة العالية أفضل النتائج الحالية.希望这符合您的要求。如果有任何需要调整的地方,请随时告知。