Human-VDM: تعلم الترقيم الغاوسي ثلاثي الأبعاد للإنسان من صورة واحدة من الفيديو باستخدام نماذج الانتشار

إنشاء البشر ثلاثي الأبعاد بشكل واقعي من صورة واحدة باللون والضوء (RGB) لا يزال مهمة صعبة في رؤية الحاسوب، حيث يتطلب ذلك نمذجة دقيقة للهندسة، وجودة عالية للملمس، وأجزاء غير مرئية ممكنة. تستخدم الطرق الحالية عادةً نماذج التوزيع المتعددة الآراء لإنشاء الصور ثلاثية الأبعاد، ولكنها غالبًا ما تواجه مشكلات عدم اتساق الآراء، مما يعوق إنشاء بشر ثلاثي الأبعاد بجودة عالية. لحل هذه المشكلة، نقترح Human-VDM، وهو طريقة جديدة لإنشاء البشر ثلاثي الأبعاد من صورة واحدة باللون والضوء باستخدام نماذج التوزيع الفيديو. توفر Human-VDM آراء متصلة زمنيًا لإنشاء البشر ثلاثي الأبعاد باستخدام تقنية Gaussian Splatting. تتكون من ثلاثة وحدات: وحدة الفيديو البشري المتسقة مع الآراء، ووحدة زيادة دقة الفيديو، ووحدة Gaussian Splatting. أولاً، يتم إدخال صورة واحدة إلى وحدة الفيديو البشري للتوزيع لإنشاء فيديو بشري متماسك. ثانياً، تقوم وحدة زيادة دقة الفيديو بتقنية الرفع الفائق والتقدير بين الإطارات لتحسين جودة الملمس والهندسة الناعمة للفيديو المنشأ. أخيرًا، تتعلم الوحدة الثلاثية الأبعاد للبشر باستخدام تقنية Gaussian Splatting إنشاء بشر واقعيين تحت إرشاد هذه الصور ذات الدقة العالية والمتسقة مع الآراء. تظهر التجارب أن Human-VDM تحقق إنشاء بشر ثلاثي الأبعاد بجودة عالية من صورة واحدة فقط، وتتفوق على أفضل الطرق الحالية في كل من جودة وكمية الإنتاج.صفحة المشروع: https://human-vdm.github.io/Human-VDM/