Command Palette
Search for a command to run...
إطار عمل تحسين القيود التمييزية (DisCO)
تم اقتراح إطار عمل DisCO من قبل فريق بحثي في جامعة تكساس إيه آند إم في مايو 2025، وتم نشر نتائج البحث ذات الصلة في ورقة بحثية بعنوان "DisCO: تعزيز نماذج الاستدلال الكبيرة باستخدام التحسين المقيد التمييزيلقد تم اختياره لـNeurIPS 2025.
يعتمد إطار عمل DisCO على مبدأ التعلم التمييزي: زيادة درجة الإجابات الإيجابية مع خفض درجة الإجابات السلبية لتعزيز آليات تحديد المدى. يتميز هذا الإطار بمزايا كبيرة مقارنةً بتحسين السياسة النسبية للمجموعة (GRPO) ومتغيراته.
(أ) من خلال اعتماد أهداف تمييزية، تم القضاء على تحيز الصعوبة بشكل كامل؛
(ii) باستخدام دالة تسجيل غير تقليمية وطريقة تحسين مقيدة، يتم حل مشكلة عدم استقرار الإنتروبيا في GRPO ومتغيراتها، مما يؤدي إلى ديناميكيات تدريب طويلة ومستقرة؛
(ثالثا) يسمح بدمج تقنيات التعلم التمييزي المتقدمة لمعالجة مشكلة البيانات غير المتوازنة، حيث تولد عدد كبير من الأسئلة أثناء التدريب إجابات سلبية أكثر من الإجابات الإيجابية.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.