HyperAI
Back to Headlines

نموذج ذهني روبوتي باستخدام NVIDIA Warp وGaussian Splatting

منذ 3 أيام

في إطار تطوير الذكاء الاصطناعي الفيزيائي، أجرت شركة NVIDIA بحثًا مبتكرًا حول إنشاء نموذج رقمي ديناميكي للعالم الواقعي يُعرف باسم "النموذج الرقمي المُدمج" (Digital Twin). يتميز هذا النموذج بكونه قادراً على التزامن المستمر مع الواقع في الوقت الفعلي، مما يوفر معلومات دقيقة حول الحالة البيئية ويُعزز الأداء في مهام متعددة مثل التحكم في الروبوتات واتخاذ القرارات. البشر يبنون نموذجًا داخليًا لعالمهم من خلال الرؤية، ويستطيعون تصور بيئات ثلاثية الأبعاد ومحاكاة التفاعلات الفيزيائية. في محاولة لمحاكاة هذه القدرة لدى الروبوتات، تم تطوير "الجسيمات المدمجة فيزيائيًا" (Physically Embodied Gaussians)، وهو نظام يتيح للروبوتات الحفاظ على نموذج فيزيائي حي يعكس الواقع في الوقت الفعلي، بدلاً من الاعتماد فقط على صور خارجية أو نماذج ثابتة. في الماضي، كان بناء نماذج فيزيائية صريحة صعبًا بسبب الحاجة إلى نماذج ثلاثية الأبعاد محددة، ومحركات فيزيائية مُعدة بدقة، بالإضافة إلى نماذج استشعار مُحسنة. لكن مع تطور تقنيات التصوير القابل للتمييز (Differentiable Rendering)، خاصةً تقنية "الانفجار الغاوسي" (Gaussian Splatting)، أصبح من الممكن إنشاء نماذج محاكاة من عدد قليل من الصور وفهم فيزيائي أساسي، حيث يمكن تصحيح النموذج بشكل مستمر باستخدام ملاحظات الواقع. تقوم تقنية "الانفجار الغاوسي" بدورين رئيسيين في هذا النظام: تُستخدم في تهيئة النموذج، وفي الوقت نفسه، تعمل كنظام مراقبة بصري يُعدل حالة النموذج حتى تتوافق الصور المحاكاة مع الواقع. عندما يتم دمج هذه التقنية مع محرك فيزيائي يعمل بسرعة 30 هرتز، تُنتج نظامًا تغذية راجعة قويًا. النموذج لا يحتاج إلى دقة عالية باستمرار، بل يمكنه التصحيح الفوري في حال حدوث انحراف، مما يسمح ببقاء النموذج دقيقًا على المدى الطويل. من التحديات التي واجهتها أنظمة "الانفجار الغاوسي" هي الحاجة إلى عدد كبير من الكاميرات (30 كاميرا أو أكثر) لضمان دقة النموذج، وهو ما لا يناسب تطبيقات الروبوتات. لحل هذه المشكلة، تم الاعتماد على المعرفة السابقة المتاحة في سياق الروبوتات، مثل الحركة المُعرفة مسبقًا أو خصائص الأشياء في البيئة، مما يسمح بالحصول على نموذج دقيق بكمية أقل من الكاميرات. يتم بناء النموذج الرقمي المُدمج من خلال تمثيلين متكاملين: "الجسيمات" التي تُحرك الأشياء في النموذج الفيزيائي، و"الانفجارات الغاوسية" التي تُستخدم لعرض الصور. الجسيمات تؤثر على حركة الصور، بينما تُحدث الصور انحرافات تُستخدم لتصحيح الجسيمات، مما يشكل دورة مغلقة تضمن دقة النموذج من حيث المظهر والفيزياء. هذا النظام يُعتبر مرنًا وفعّالًا، ويُبنى على أدوات تكنولوجية متطورة مثل "NVIDIA Warp"، وهو محرك فيزيائي قوي، و"gsplat"، وهو أداة لتصور الانفجارات الغاوسية. كما أن المشروع متاح بشكل مفتوح المصدر، ويمكن الوصول إلى مزيد من التفاصيل والمُDemonstrations من خلال الموقع الرسمي: https://embodied-gaussians.github.io/. يُعد هذا البحث خطوة مهمة في تطوير الذكاء الاصطناعي الفيزيائي، حيث يفتح آفاقًا جديدة لبناء نماذج تفاعلية ودقيقة تُستخدم في الروبوتات والأنظمة الذكية. من المتوقع أن يساهم هذا النظام في تحسين قدرات الروبوتات على التفاعل مع البيئة بشكل أكثر فعالية وذكاءً.

Related Links