Vid2Avatar: إعادة بناء الأفاتار ثلاثي الأبعاد من الفيديوهات العشوائية عبر تفكيك المشهد ذاتي الإشراف

نقدم طريقة تُعرف بـ Vid2Avatar، وهي طريقة لتعلم صور الشخصيات البشرية من مقاطع الفيديو الأحادية العدسة (monocular) التي تم التقاطها في بيئات حقيقية (in-the-wild). إعادة بناء البشر الذين يتحركون بشكل طبيعي من مقاطع الفيديو الأحادية العدسة التي تم التقاطها في بيئات حقيقية هي مهمة صعبة. حل هذه المشكلة يتطلب فصل البشر بدقة عن الخلفيات العشوائية. بالإضافة إلى ذلك، يتطلب إعادة بناء السطح ثلاثي الأبعاد بالتفصيل من سلاسل فيديو قصيرة، مما يجعل المهمة أكثر تحديًا. على الرغم من هذه التحديات، فإن طرقنا لا تتطلب أي إشراف بالأمثلة الحقيقية (groundtruth supervision) أو معلومات أولية مستخرجة من مجموعات بيانات كبيرة لمسح أشكال البشر الملثمين (clothed human scans)، كما أننا لا نعتمد على أي وحدات تقسيم خارجية (external segmentation modules). بدلاً من ذلك، تحل هذه الطريقة مهام تقسيم المشهد وإعادة بناء السطح مباشرة في ثلاثة أبعاد عن طريق نمذجة كل من الإنسان والخلفية في المشهد معًا، باستخدام حقلين عصبيين منفصلين للنمذجة. تحديدًا، نعرّف تمثيلًا بشريًا ثابتًا زمنيًا في الفضاء القياسي (canonical space) ونسطر عملية تحسين عالمية على نموذج الخلفية، وشكل الإنسان القياسي والملمس، ومعلمات وضع الإنسان لكل إطار. يتم تقديم استراتيجية عينة خشنة إلى دقيقة (coarse-to-fine sampling strategy) لتقدير الحجم واهداف جديدة لفصل الديناميكي البشري والخلفية الثابتة بشكل واضح، مما يؤدي إلى إعادة بناء هندسية ثلاثية الأبعاد دقيقة وقوية للإنسان. نقيم طرائقنا على مجموعات بيانات متاحة للجمهور ونظهر التحسينات على الأعمال السابقة.