Command Palette
Search for a command to run...
مساحة التصميم للنماذج المتعددة الأبعاد المقنعة القائمة على الانتشار
مساحة التصميم للنماذج المتعددة الأبعاد المقنعة القائمة على الانتشار
الملخص
أصبحت النماذج التفاضلية المنفصلة بديلاً قوياً للنماذج اللغوية ذاتية التوليد، حيث ساهمت الدراسات الحديثة في تهيئة نموذج أساسي أحادي الوسيلة وتحسينه لدعم التوليد ثنائي الوسيلة. وخلافاً للنهج السابقة، نقدم أول نموذج تفاضلي مُقنّع ثلاثي الوسيلة، تم تدريبه من الصفر على بيانات نصية، ونصوص-صور، ونصوص-صوتية. ونُجري تحليلًا منهجيًا لقوانين التوسع متعدد الوسائط، ونسب خلط الوسائط، وخطط الضوضاء، وتأثيرات حجم الدفعة (batch size)، كما نقدّم إعدادات افتراضية مُحسّنة للاستخلاص أثناء الاستدلال. ونتيجة لتحليلنا لحجم الدفعة، نُقدّم إعادة صياغة مبنية على معادلة تفاضلية عشوائية (SDE) جديدة، تُلغِي الحاجة إلى ضبط الحجم المثالي للدفعة، كما أُبلغ عنها في الدراسات الحديثة. وتُفصل هذه إعادة الصياغة بين حجم الدفعة الفعلي، الذي يُختار غالبًا بناءً على القيود الحاسوبية (مثل تشغيل وحدات معالجة الرسومات إلى الحد الأقصى، وفعالية العمليات الحسابية، ووقت التنفيذ الفعلي)، وحجم الدفعة المنطقي، الذي يُختار لتحقيق التوازن بين تباين المُشتق أثناء التحسين العشوائي. وأخيرًا، قمنا بتدريب نموذج أولي ثلاثي الوسيلة بحجم 3 مليار معلمة على 6.4 تيرابايت من الرموز، مما يُظهر إمكانيات التصميم الموحّد ويحقق نتائج قوية في مهام التوليد النصي، وتحويل النص إلى صورة، وتحويل النص إلى كلام. تمثل هذه الدراسة أكبر دراسة منهجية مفتوحة على نطاق واسع لنموذج التفاضل متعدد الوسائط المنفصلة حتى تاريخه، وتوفر رؤى حول سلوك التوسع عبر وسائط متعددة.