نماذج NVIDIA Cosmos للتدريب الدقيق عبر LoRA/DoRA
طورت شركة إنفيديا نموذج عالمي ضخمًا جديدًا باسم Cosmos Predict 2.5، القادر على توليد فيديوهات واقعية تتبع قوانين الفيزياء استنادًا إلى نصوص أو صور أو مقاطع فيديو موجودة مسبقًا. ومع ذلك، فإن تكييف هذا النموذج لبيئات متخصصة مثل التحكم بالروبوتات يتطلب تدريبًا دقيقًا مكلفًا ومعقدًا إذا تم عبر التعديل الكامل لوزن النموذج، مما قد يؤدي إلى نسيان المعرفة العامة. لتجاوز هذه العقبات، قدمت الشركة دليلًا عمليًا لاستخدام تقنيات التدقيق الكفؤ بالمعلمات، وهي LoRA وDoRA، لضمان كفاءة التدريب على بطاقات رسوميات واحدة مع الحفاظ على قدرة النموذج على التكيف. تعتمد الطريقة المقترحة على تثبيت أوزان النموذج الأساسي وتدريب وحدات محولة صغيرة الحجم فقط داخل طبقات الانتباه والطبقات التلافيفية في الشبكة، مما يقلل بشكل كبير من متطلبات الذاكرة ويسمح بتبديل هذه المحولات بسرعة بين المجالات المختلفة دون إعادة التدريب. يبدأ العمل بتجهيز البيانات باستخدام مجموعات بيانات مشابهة لتلك المستخدمة في مشاريع GR00T، حيث يتم تحميل مقاطع الفيديو والنصوص المرافقة لها، مع ضمان معالجة إطارات الفيديو وتطبيعها بدقة مناسبة قبل التدريب. أثناء العملية التدريبية، يتم تجميد أوزان جميع مكونات النموذج الرئيسية، بما في ذلك مشفر الفيديو ومعالج النصوص والشبكة الرئيسية، وتطبيق تحديثات LoRA أو DoRA على الطبقات المستهدفة فقط. يستخدم النموذج خوارزمية تدفق مستقيم لتدريب النموذج على التنبؤ بالسرعة التي تنقل عينة ضوضاء نحو البيانات النظيفة، مع حساب الخسارة فقط على الإطارات غير المشروطة لضمان دقة التوليد. تتم إدارة المعاملات باستخدام خوارزمية AdamW مع جدولة خطية لمعدل التعلم، ويتم حفظ الأوزان في فترات زمنية محددة بصيغة قابلة للاستخدام مباشرة مع مكتبات diffusers. تشير التجارب إلى أن التدريب لمدة 100 ساعة فقط على ثماني وحدات معالجة رسومية من نوع H100 يحقق نتائج ممتازة، حيث يتعلم النموذج استخدام الأيدي المناسبة للروبوت وتجنب التشويهات في الحركة التي كانت تظهر في النموذج الأساسي قبل التدريب. تشير النتائج التجريبية إلى أن كلا التقنيتين، LoRA وDoRA، تحققان أداءً متشابهًا في تحسين جودة الفيديو من حيث الاتساق الهندسي والالتزام بقوانين الفيزياء. ومع ذلك، يظهر أن زيادة رتبة LoRA إلى 32 تعزز قدرة النموذج على اتباع التعليمات بدقة، مثل استخدام اليد اليمنى أو التعامل مع كائنات محددة، دون التأثير بشكل ملحوظ على الاتساق الهندسي. يُنصح بالبدء بـ LoRA برتبة 8 إذا كان حجم الملف أو الذاكرة عاملاً حاسمًا، بينما يمكن اللجوء إلى DoRA برتبة 32 في حال حدوث عدم استقرار أثناء التدريب. يتيح هذا النهج للمطورين توليد مسارات روبوتية صناعية بدقة عالية باستخدام موارد محدودة، مما يفتح آفاقًا واسعة لتدريب السياسات الروبوتية باستخدام بيانات اصطناعية موثوقة.
