Beyond Majority Rule: How Meta Is Teaching LLMs to Find the ‘Right’ Answer, Not Just the Popular One
في عالم الذكاء الاصطناعي، يُعدّ تحسين أداء النماذج اللغوية الكبيرة (LLMs) في حل المشكلات المعقدة أحد أبرز التحديات. تقليديًا، يعتمد الكثير من الباحثين على طريقة تُعرف بـ"الاتساق الذاتي" أو التصويت الجماعي: يُطلب من النموذج إنتاج عدة حلول لمشكلة معينة، ثم يُختار الحل الأكثر تكرارًا كإجابة نهائية. هذه الطريقة ناجحة في كثير من الحالات، لكنها تفشل عندما تكون المشكلة صعبة بدرجة تُضلل الجماهير — تمامًا كما في مثال الفصل الدراسي، حيث يُقدّم معظم الطلاب إجابة خاطئة متشابهة، بينما يبقى طالب واحد وحيدًا يتوصل إلى الحل الصحيح بطرق غير تقليدية. هنا تأتي إحدى أبرز التطورات الحديثة: نموذج AggLM، الذي طوّرته شركة ميتا، والذي يعيد تعريف كيفية تقييم النماذج اللغوية للإجابات. بدلًا من الاعتماد على عدد المرات التي تظهر فيها إجابة معينة، يُستخدم AggLM منهجية تُسمى التعلم بالتعزيز (Reinforcement Learning) لتمييز "الإجابة الصحيحة" بناءً على جودة التفكير، وليس على شعبيتها. الأساس في AggLM يكمن في تدريب نموذج ثانٍ — يُسمى "مُقيّم الإجابة" — على تحليل سلسلة من الحلول المُولَّدة من قبل النموذج الأساسي. لا يقيّم هذا المُقيّم فقط ما إذا كانت الإجابة صحيحة أو خاطئة، بل يُحلّل أيضًا جودة السبب والمنطق وراء كل حل. على سبيل المثال، هل تضمن الحل جميع الحالات الممكنة؟ هل يتجنب أخطاء منطقية شائعة؟ هل يستخدم تفكيرًا متدرجًا وواضحًا؟ من خلال هذه المقاربة، يُمكن لـAggLM أن يُميز بين الحلول التي تبدو صحيحة لأنها شائعة، وبين الحلول التي تُعدّ صحيحة حقًا لكنها نادرة أو غير مألوفة. هذا يُشبه أن يُسجّل المُدرّس نتائج الطلاب ليس فقط حسب الإجابة، بل حسب كيفية تفكيرهم — فيُكافأ من يفكر بعمق، حتى لو لم يكن من بين الأكثر تكرارًا. النتائج أولية لكنها واعدة. في اختبارات على مهام مثل حل مسائل رياضية متقدمة، وتحليل منطقي معقد، وحل لغز مفاهيمية، أظهر AggLM تحسنًا ملحوظًا مقارنة بالطرق التقليدية. ففي بعض الحالات، رفع دقة النموذج بنسبة تصل إلى 20%، خاصة في المشكلات التي يُحتمل أن تُغري النماذج باتباع مسار خطأ شائع. ما يُميّز AggLM أيضًا هو قدرته على التعلم من الأخطاء، وليس فقط من النجاحات. يُدرّب النموذج على التمييز بين "الصواب السطحي" و"الصواب العميق"، مما يجعله أكثر مرونة في مواجهة التحديات التي لا تملك إجابة واضحة مسبقة. هذا التطور لا يُعدّ مجرد تحسين تقني، بل يُمثل تحوّلًا فكريًا في فهم الذكاء الاصطناعي. فبدلاً من الاعتقاد بأن "الجمهور الأكبر هو الأذكى"، يُعلّم AggLM النماذج أن تبحث عن الجودة، لا الكثرة. في عالم حيث يزداد تعقيد المشكلات، من تحليل البيانات الطبية إلى اتخاذ قرارات مهنية، فإن القدرة على تمييز "الذكاء الحقيقي" من "الكثافة الخادعة" قد تكون الفارق بين النجاح والفشل.
