HyperAIHyperAI

Command Palette

Search for a command to run...

إطار عمل تحسين القيود التمييزية (DisCO)

التاريخ

منذ 2 أشهر

المؤسسة

رابط الورقة البحثية

2505.12366

تم اقتراح إطار عمل DisCO من قبل فريق بحثي في جامعة تكساس إيه آند إم في مايو 2025، وتم نشر نتائج البحث ذات الصلة في ورقة بحثية بعنوان "DisCO: تعزيز نماذج الاستدلال الكبيرة باستخدام التحسين المقيد التمييزيلقد تم اختياره لـNeurIPS 2025.

يعتمد إطار عمل DisCO على مبدأ التعلم التمييزي: زيادة درجة الإجابات الإيجابية مع خفض درجة الإجابات السلبية لتعزيز آليات تحديد المدى. يتميز هذا الإطار بمزايا كبيرة مقارنةً بتحسين السياسة النسبية للمجموعة (GRPO) ومتغيراته.

(أ) من خلال اعتماد أهداف تمييزية، تم القضاء على تحيز الصعوبة بشكل كامل؛

(ii) باستخدام دالة تسجيل غير تقليمية وطريقة تحسين مقيدة، يتم حل مشكلة عدم استقرار الإنتروبيا في GRPO ومتغيراتها، مما يؤدي إلى ديناميكيات تدريب طويلة ومستقرة؛

(ثالثا) يسمح بدمج تقنيات التعلم التمييزي المتقدمة لمعالجة مشكلة البيانات غير المتوازنة، حيث تولد عدد كبير من الأسئلة أثناء التدريب إجابات سلبية أكثر من الإجابات الإيجابية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp