HyperAIHyperAI
منذ 17 أيام

فرضية كثافة العُمق الواسع وجدول معدل تعلّم الاستكشاف-الاستغلال

Nikhil Iyer, V Thejas, Nipun Kwatra, Ramachandran Ramjee, Muthian Sivathanu
فرضية كثافة العُمق الواسع وجدول معدل تعلّم الاستكشاف-الاستغلال
الملخص

تشير عدة أوراق بحثية إلى أن الحُفر الواسعة تُظهر أداءً أفضل في التعميم مقارنة بالحُفر الضيقة. وفي هذه الورقة، وبفضل تجارب مفصلة لا تُثبت فقط خصائص التعميم للحُفر الواسعة، بل تقدم أيضًا أدلة تجريبية على فرضية جديدة تنص على أن كثافة الحُفر الواسعة من المرجح أن تكون أقل من كثافة الحُفر الضيقة. وبالإضافة إلى ذلك، مستوحاة من هذه الفرضية، قمنا بتصميم جدول جديد لسرعة التعلم يعتمد على نموذج الاستكشاف والاستغلال. وعند تطبيقه على مجموعة متنوعة من مجموعات البيانات الصورية واللغوية الطبيعية، نُظهر أن جدولنا الجديد لسرعة التعلم يمكن أن يؤدي إلى دقة مطلقة أعلى بنسبة تصل إلى 0.84% باستخدام نفس الميزانية الأصلية للتدريب، أو يقلل من وقت التدريب بنسبة تصل إلى 57% مع الحفاظ على الدقة المبلغ عنها أصلاً. على سبيل المثال، نحقق دقة متفوقة على مستوى الصناعة (SOTA) لمجموعة بيانات IWSLT'14 (DE-EN) من خلال تعديل بسيط في جدول سرعة التعلم لنموذج عالي الأداء.

فرضية كثافة العُمق الواسع وجدول معدل تعلّم الاستكشاف-الاستغلال | أحدث الأوراق البحثية | HyperAI