Diffuman4D: توليف وجه الإنسان المتسق في الأبعاد الأربعة من مقاطع الفيديو ذات الزوايا النادرة باستخدام نماذج الانتشار المكاني-الزماني

يتناول هذا البحث التحدي المتمثل في إنشاء مشاهد عالية الدقة للبشر باستخدام مقاطع الفيديو ذات الزوايا النادرة كمدخلات. كانت الطرق السابقة تحل مشكلة عدم كفاية الملاحظات من خلال الاستفادة من نماذج الانتشار رباعية الأبعاد لإنشاء مقاطع فيديو من زوايا جديدة. ومع ذلك، غالباً ما تفتقر المقاطع المصورة بواسطة هذه النماذج إلى التجانس الزماني والمكاني، مما يؤدي إلى تدهور جودة إنشاء المشاهد. في هذا البحث، نقترح عملية تنقية متكررة ومتزاحة جديدة لتعزيز التجانس الزماني والمكاني لنموذج الانتشار رباعي الأبعاد. بصفة خاصة، نحدد شبكة مخفية حيث يشفر كل عنصر مخفي الصورة وموضع الكاميرا وموضع الإنسان لزاوية معينة وزمن معين، ثم نقوم بتنقية الشبكة المخفية بشكل متبادل على الأبعاد المكانية والزمانية باستخدام نافذة متزاحة، وأخيراً نفك شفرة مقاطع الفيديو عند الزوايا المستهدفة من العناصر المخفية المنقاة. من خلال التنقية المتكررة والمتزاحة، يتدفق المعلومات بشكل كافٍ عبر الشبكة المخفية، مما يسمح لنموذج الانتشار بالحصول على مجال استقبال كبير وبالتالي تعزيز التجانس رباعي الأبعاد للناتج، مع الحفاظ على استهلاك ذاكرة الوحدة المعالجة الرسومية (GPU) ضمن حدود معقولة. أظهرت التجارب على قاعدة بيانات DNA-Rendering وActorsHQ أن طريقتنا قادرة على إنشاء مقاطع فيديو عالية الجودة ومتقاربة من زوايا جديدة وتتفوق بشكل كبير على الأساليب الموجودة حالياً. يمكنكم مشاهدة عروض التوضيح التفاعلية ونتائج الفيديو على صفحة مشروعنا:https://diffuman4d.github.io/ .