4DNeX: نمذجة التوليد الأربعة الأبعاد ذات التغذية الأمامية أصبحت سهلة

نقدم 4DNeX، أول إطار عمل من نوع التغذية الأمامية لإنشاء تمثيلات مشهد ثلاثية الأبعاد ديناميكية (أي 4D) من صورة واحدة. على عكس الطرق الحالية التي تعتمد على عمليات تحسين مكلفة من حيث الحوسبة أو تتطلب إدخالات فيديو متعددة الإطارات، يُمكّن 4DNeX من توليد صورة 4D من صورة واحدة بشكل فعّال ونهائي (end-to-end) من خلال ضبط دقيق لنموذج توزيع فيديو مُدرّب مسبقًا. وبشكل محدد، 1) لمعالجة ندرة البيانات 4D، قمنا ببناء مجموعة بيانات كبيرة بعنوان 4DNeX-10M، تحتوي على تسميات 4D عالية الجودة تم إنشاؤها باستخدام تقنيات استرجاع متقدمة. 2) قمنا بطرح تمثيل فيديو موحد بـ 6 أبعاد (6D) يُعنى بتمثيل تسلسليين معًا: التسلسلات اللونية (RGB) والتسلسلات المكانية (XYZ)، مما يُسهل التعلّم المُنظّم لكل من المظهر والهندسة. 3) اقترحنا مجموعة من استراتيجيات التكييف البسيطة لكنها فعّالة، لتحويل نماذج توزيع الفيديو المُدرّبة مسبقًا إلى نماذج قادرة على تمثيل المشاهد 4D. تُنتج 4DNeX سحوبات نقطية ديناميكية عالية الجودة، مما يمكّن من توليد مقاطع فيديو من زوايا جديدة. أظهرت التجارب الواسعة أن 4DNeX تتفوّق على الطرق الحالية لتوليد المشاهد 4D من حيث الكفاءة والقابلية للتطبيق العام، مقدمةً حلًّا قابلاً للتوسع في مجال التحويل من الصورة إلى التمثيل 4D، ووضع الأساس لنماذج عالمية توليدية 4D قادرة على محاكاة تطوّر المشاهد الديناميكية.