HyperAI
Back to Headlines

نVIDIA تطلق DiffusionRenderer: أداة ذكاء اصطناعي للتعديل على مشاهد ثلاثية الأبعاد واقعية من فيديو واحد

منذ 10 أيام

NVIDIA تطلق DiffusionRenderer: نموذج ذكاء اصطناعي لإنشاء مشاهد ثلاثية الأبعاد واقعية وقابلة للتحرير من فيديو واحد شهدت تقنيات التوليف الفيديوي عبر الذكاء الاصطناعي تطورًا مذهلًا خلال السنوات الأخيرة. فقد تحولنا من مقاطع فيديو ضبابية وغير متماسكة إلى مقاطع تتميز بواقعية مدهشة. ومع ذلك، كان هناك قدرة أساسية مفقودة: التحكم والتعديل الاحترافي والواقعي على الفيديو. بينما قد يكون إنشاء فيديو جميل أمرًا ممكنًا، فإن القدرة على تغيير الإضاءة من نهارية إلى ليلية، أو استبدال مادة كائن من الخشب إلى المعدن، أو إدراج عنصر جديد في المشهد بشكل سلس، كانت تظل تحديًا كبيرًا وغير محلول. هذا العائق كان السبب الرئيسي في عدم استخدام الذكاء الاصطناعي كأداة أساسية للمخرجين، والمصممين، والمبدعين. الكشف عن DiffusionRenderer في ورقة بحثية رائدة جديدة، كشف باحثون من NVIDIA وجامعة تورونتو ومعهد Vector وجامعة إلينويس في أوربانا شامبين عن إطار عمل يواجه هذا التحدي مباشرة. يمثل DiffusionRenderer قفزة نوعية، حيث يتجاوز مجرد إنشاء الفيديو ليقدم حلًا متكاملًا لفهم وتعديل المشاهد ثلاثية الأبعاد من فيديو واحد. وهو يربط بين إنشاء الفيديو والتحرير، مُطلقًا العنان للقوة الإبداعية الحقيقية للمحتوى الذي يُدار بواسطة الذكاء الاصطناعي. التحول من الطريقة القديمة إلى الحديثة لعقود من الزمن، كانت الواقعية الضوئية متأصلة في طريقة PBR (Physically Based Rendering)، وهي منهجية تحاكي تدفق الضوء بدقة عالية. رغم أنها تنتج نتائج مبهرة، إلا أنها نظام هش للغاية. تعتمد PBR بشكل حاسم على وجود نموذج رقمي مثالي للمشهد—هندسة ثلاثية الأبعاد دقيقة، نصوص مواد مفصلة، وخرائط إضاءة دقيقة. عملية التقاط هذا النموذج من العالم الحقيقي، والمعروفة بالتقدير العكسي (Inverse Rendering)، هي صعبة للغاية ومعرّضة للأخطاء. حتى الأخطاء الصغيرة في البيانات يمكن أن تتسبب في فشل كارثي في النسخة النهائية، وهو ما يعد نقطة ضعف رئيسية قد حدت من استخدام PBR خارج بيئات الاستوديو المسيطر عليها. التقنيات السابقة للتصنيع العصبي مثل NeRFs، رغم ثوريتها في إنشاء مشاهد ثابتة، واجهت صعوبة في التعديل بعد التقاط الفيديو. فهي "تعطي" الإضاءة والمواد في المشهد، مما يجعل التعديلات اللاحقة شبه مستحيلة. يعالج DiffusionRenderer هذه المشكلة من خلال معالجة "ما" (خصائص المشهد) و "كيف" (التصنيع) في إطار عمل موحد يعتمد على نفس البنية القوية التي تدعم نماذج مثل Stable Video Diffusion. طريقة الذكاء الاصطناعي الجديدة يعتمد هذا الإطار على مزج مُركبين من الذكاء الاصطناعي للتعامل مع الفيديو: التقدير العكسي (Inverse Rendering): يستخدم تقنيات الذكاء الاصطناعي لفهم خصائص المشهد مثل الهندسة ثلاثية الأبعاد، المواد، والإضاءة. التصنيع التقدمي (Forward Rendering): يُنشئ مشهدًا جديدًا واقعيًا بناءً على التعديلات التي أدخلها المستخدم على الخصائص التي تم فهمها. التعاون الذاتي المصحح هو جوهر هذا الانفراج. تم تصميم النظام للتعامل مع الفوضى في العالم الحقيقي، حيث تكون البيانات المثالية مجرد أسطورة. الاستراتيجية الذكية للبيانات نموذج ذكي ليس له قيمة دون بيانات ذكية. وضع الباحثون وراء DiffusionRenderer استراتيجية بيانات ثنائية الذكاء لتعليم نموذجهم تفاصيل كل من الفيزياء المثالية والواقع المليء بالأخطاء. كون وهمي ضخم: بنوا مجموعة بيانات فيديو وهمية ذات جودة عالية تضم 150,000 فيديو. استخدموها آلاف الأشياء ثلاثية الأبعاد، مواد PBR، وخرائط إضاءة HDR لإنشاء مشاهد معقدة وتصنيعها باستخدام محرك تجميع مسارات مثالي (Path Tracing Engine). هذا أعطى نموذج التقدير العكسي "كتاب دراسي" مثاليًا يتعلم منه، مما يوفر له بيانات حقيقية مثالية. توصيف العالم الحقيقي تلقائيًا: اكتشف الفريق أن نموذج التقدير العكسي، الذي تم تدريبه فقط على البيانات الوهمية، كان مفاجئًا في تعميمه على الفيديوهات الحقيقية. قاموا بإطلاقه على مجموعة بيانات ضخمة تضم 10,510 فيديو من العالم الحقيقي (DL3DV10k). أنتج النموذج تلقائيًا مجموعات G-buffer للصور الحقيقية. هذا أدى إلى خلق مجموعة بيانات ضخمة تضم 150,000 عينة من مشاهد العالم الحقيقي مع خرائط خصائص داخلية مُلَوَّغة—رغم أنها قد تكون غير مثالية. بتدريب النموذج التصنيعي التقدمي على كل من البيانات الوهمية المثالية والبيانات الحقيقية المُلَوَّغة، تعلم النموذج كيفية جسر الفجوة الحرجة بين "العالم الوهمي" و"العالم الحقيقي". تعلم قواعد العالم الوهمي ومظهر وشعور العالم الحقيقي. لمعالجة الأخطاء الحتمية في البيانات المُلَوَّغة، أدخل الفريق وحدة LoRA (Low-Rank Adaptation)، وهي تقنية ذكية تسمح للنموذج بتكيفه مع البيانات الأكثر ضوضاء دون التأثير على المعرفة التي اكتسبها من البيانات الوهمية المثالية. الأداء الرائد تتحدث النتائج بنفسها. في مقارنات صارمة وجهاً لوجه ضد الأساليب التقليدية والعصبية الرائدة، حقق DiffusionRenderer تفوقًا واضحًا في جميع المهام المُقيَّمة. في مجال التصنيع التقدمي، كانت النتائج مدهشة مقارنة بالنسخة الحقيقية (Path Traced GT هي النسخة الحقيقية). التطبيقات العملية القوية لـ DiffusionRenderer يُطلق هذا البحث حزمة من التطبيقات العملية والقوية التي تعمل من فيديو واحد عادي. تتمثل العملية في خطوات بسيطة: يقوم النموذج أولاً بتنفيذ التقدير العكسي لفهم المشهد، ثم يقوم المستخدم بتعديل الخصائص، وأخيرًا يقوم النموذج بتنفيذ التصنيع التقدمي لإنشاء فيديو جديد واقعي. أساس جديد للجرافيك يُمثل DiffusionRenderer انفراجًا حاسمًا. من خلال حل التقدير العكسي والتصنيع التقدمي بشكل شامل ضمن إطار عمل واحد قوي ومُدَرَّج بالبيانات، فإنه يهدم الحواجز الطويلة الأمد للطريقة التقليدية PBR. كما يُعمِّم التصنيع الواقعي، مُحوِّله من مجال حصري للمهندسين البصريين الذين لديهم معدات قوية إلى أداة أكثر قابلية للوصول للمبدعين، والمصممين، ومطوري AR/VR. التحسينات المستمرة في تحديث حديث، يعزز الكتّاب الأداء في إزالة الإضاءة وإعادة توزيعها من خلال استخدام NVIDIA Cosmos وتحسين إدارة البيانات. يُظهر هذا التحسن توجهًا مُبشِّراً: كلما زاد قوة النموذج الأساسي للتوليف الفيديوي، تتحسن جودة الناتج، مما ينتج عنه نتائج أكثر حدة ودقة. التقييم والتوافر يعتبر DiffusionRenderer تقنية قوية واعدة. تم إطلاق النموذج الجديد تحت رخصة Apache 2.0 ورخصة NVIDIA Open Model License، ويمكن الوصول إليه من هنا. نبذة تعريفية عن NVIDIA NVIDIA هي شركة رائدة في مجال تقنيات الذكاء الاصطناعي والجرافيك الحاسوبي. تشتهر بتطوير معالجاتها الرسومية (GPUs) وباستخدامها في مجالات متنوعة مثل الألعاب، الحوسبة العلمية، وتطبيقات الذكاء الاصطناعي. تُواصل NVIDIA قيادة الابتكار في هذه المجالات، مما يجعلها محورًا رئيسيًا في تطوير التقنيات المستقبلية. هذه التقنية تعكس قيادة NVIDIA في تقديم حلول تكنولوجية مبتكرة تسهل عملية الإبداع والتصميم، وتدفع حدود القدرة على إنتاج محتوى واقعي وتفاعلي.

Related Links