ماببو: تحسين التفضيل بحد أقصى للإحتمالية اللاحقة مع معرفة سابقة
مع تطور عصر النماذج اللغوية الكبيرة (LLMs) التي تعمل بالنيابة عن المستخدمين، أصبحت طرق تحسين التفضيلات (Preference Optimization - PO) من الطرق الأساسية لتوحيد سلوك هذه النماذج مع تفضيلات البشر وتحسين أدائها. نقترح إطارًا يُسمى تحسين التفضيلات حسب الاحتمال الأقصى (Maximum a Posteriori Preference Optimization - MaPPO)، وهو إطار لتعلم التفضيلات يُدمج بشكل صريح معرفة مسبقة حول المكافآت في دالة التحسين. بينما تتعامل الطرق الحالية مثل تحسين التفضيلات المباشر (Direct Preference Optimization - DPO) ومشتقاتها مع تعلم التفضيلات كمشكلة تقدير الاحتمال الأقصى (Maximum Likelihood Estimation - MLE)، فإن MaPPO توسّع هذا النموذج من خلال دمج تقديرات المكافأة المسبقة ضمن دالة تحسين منهجية تُعرف بـ "الاحتمال الأقصى اللاحق" (Maximum a Posteriori - MaP). هذا لا يعمّق تعميم DPO ومشتقاتها فحسب، بل يعزز أيضًا تطابق النموذج من خلال تقليل التبسيط المفرط في تصنيف الاستجابات إلى فئتين فقط (نعم/لا). والأهم من ذلك، أن MaPPO لا يضيف أي معلمة إضافية (hyperparameter)، ويُدعم التحسين التفضيلي في البيئات الساكنة (offline) والبيئات الحية (online) على حد سواء. علاوة على ذلك، يمكن استخدام MaPPO كمكوّن إضافي (plugin) مع تحسين مستمر على مشتقات DPO، بما في ذلك الطرق الشائعة مثل SimPO وIPO وCPO. وقد أظهرت تقييمات تجريبية واسعة النطاق على نماذج بمقاييس وسلالات مختلفة، باستخدام ثلاث معايير قياسية شهيرة (MT-Bench، AlpacaEval 2.0، وArena-Hard)، تحسينًا متسقًا في أداء التوافق (alignment) دون التضحية بكفاءة الحوسبة.