قوانين التوسع القابلة للتكرار في تعلم اللغة والصورة بالمقارنة

توسيع شبكات العصبونات قد أدى إلى أداء ملحوظ في مجموعة واسعة من المهام. علاوة على ذلك، الأداء غالباً ما يتبع قوانين توسع موثوقة كدالة لحجم مجموعة التدريب، حجم النموذج، والحسابات، مما يوفر إرشادات قيمة بينما تصبح التجارب على نطاق كبير أكثر تكلفة. ومع ذلك، فإن الأعمال السابقة حول قوانين التوسع قد استخدمت بشكل أساسي بيانات ونماذج خاصة أو ركزت على التعلم الأحادي النمط للغة أو الرؤية. لمعالجة هذه القيود، ندرس قوانين التوسع للتدريب المقارن للغة والصورة (CLIP) باستخدام مجموعة البيانات العامة LAION ومكتبة OpenCLIP المفتوحة المصدر. تتضمن تجاربنا على نطاق كبير نماذج تم تدريبها على ما يصل إلى ملياري زوج صورة-نص وتحدد قانون القوى للتوسع في العديد من المهام الثانوية بما في ذلك تصنيف الصور دون الحاجة إلى تدريب إضافي (zero-shot classification)، الاسترجاع، الاستكشاف الخطي (linear probing)، والتحسين الدقيق من البداية إلى النهاية (end-to-end fine-tuning). نجد أن توزيع التدريب يلعب دوراً أساسياً في قوانين التوسع حيث أن نماذج OpenAI وOpenCLIP تظهر سلوكيات توسع مختلفة رغم وجود هندسة نموذجية متطابقة وأساليب تدريب مشابهة. نقوم بتوفير مصدر رمزنا وكافة النماذج التي درسناها، بما في ذلك أكبر نماذج CLIP العامة، بشكل مفتوح المصدر لضمان القابلية للتكرار وجعل بحث قوانين التوسع أكثر سهولة. سيتم توفير الكود البرمجي والموجهات لإعادة إنتاج هذه الدراسة على الرابط https://github.com/LAION-AI/scaling-laws-openclip