تعزيز القدرات الاستدلالية لمодèles اللغوية الكبيرة باستخدام AbstRaL لزيادة المتانة في مهام المنطق والرياضيات
AbstRaL: تعليم نماذج اللغة الكبيرة (LLMs) للتفكير المجرد عبر التعلم التعزيزي لتعزيز قوتها في مقاييس GSM مقدمة أظهرت الدراسات الحديثة أن نماذج اللغة الكبيرة (LLMs)، وخاصة الأصغر حجمًا، غالبًا ما تواجه صعوبات في التفكير المنطقي القوي. رغم أدائها الجيد في الأسئلة المألوفة، تفشل هذه النماذج عندما يتم تغيير شكل الأسئلة قليلًا، مثل تغيير الأسماء أو الأرقام أو إضافة معلومات ذات صلة ولكن غير مهمة. هذا الضعف، المعروف بأنه تعميم خارج التوزيع (OOD)، يؤدي إلى انخفاض كبير في الدقة حتى في مهام رياضية بسيطة. الحل الممكن هو إنشاء تغيرات صناعية للمشكلات المنطقية، مما يساعد النماذج على التركيز على المنطق الأساسي بدلاً من التفاصيل السطحية. هذا التحسين في التفكير المنطقي حاسم لتطوير أنظمة ذكاء اصطناعي أكثر عمومية وموثوقية. التفكير المجرد في فشل LLMs على الرغم من قدرات التفكير المنطقي المressive التي أظهرتها نماذج LLMs، فإنها غالبًا ما تفشل عند تعرضها لتغيرات في التوزيع، مثل تغيير الصياغة أو القيم العددية أو إدخال تشتيتات. هذا الضعف واضح في مقاييس المنطق والرياضيات والتفكير الشائع. اعتمدت الحلول السابقة على زيادة البيانات لتقديم مجموعة أوسع من المدخلات، مما يحسن القوة ولكن يزيد من متطلبات الحوسبة. كما استكشف الباحثون تنسيقات مثل التجرد الفكري وسلاسل التجرد لتعليم التفكير المجرد، بينما تساعد تقنيات التخطيط مثل سلاسل الفكر وأشجار الفكر في حل المشكلات خطوة بخطوة. بالإضافة إلى ذلك، يوفر التعلم التعزيزي والطرق القائمة على التفضيل دعمًا إضافيًا لتطوير مهارات التفكير المنطقي خارج مجرد حفظ الأنماط. طريقة AbstRaL لتعلم التفكير المجرد اقترح باحثون من Apple وEPFL طريقة تُعرف بـ AbstRaL، وهي تهدف إلى تعليم LLMs فهم أنماط التفكير المجرد بدلاً من حفظ التفاصيل السطحية. بدلاً من إنتاج الكثير من أمثلة التدريب المتباينة، وهو ما يعتبر مكلفًا من حيث الحوسبة، تساعد AbstRaL النماذج على تعلم البنية الأساسية للمشكلات المنطقية باستخدام التعلم التعزيزي. تربط هذه الطريقة الأنماط المجردة بأدوات رمزية، مما يسهم في حل المشكلات بشكل أكثر موثوقية. تم اختبار AbstRaL على مقاييس GSM، وأظهرت تحسينًا كبيرًا في أداء LLMs، خاصة عند مواجهة تغييرات في المدخلات أو معلومات تشتيت. أثبتت AbstRaL أنها أفضل من النماذج المدربة فقط بالتدريس الإشرافي من خلال تعزيز التفكير المنطقي الأكثر ثباتًا واستقلالية عن السياق. الخطوات الأربعة لتعلم التفكير الرمزي المجرد عبر AbstRaL تتكون AbstRaL من إطار عمل من أربع خطوات مصمم لتعليم LLMs كيفية التفكير المجرد بدلاً من الاعتماد على الأنماط السطحية: 1. تحديد المتغيرات الرئيسية: يتم تحديد المتغيرات الأساسية في السؤال واستبدالها بمواقع رمزية. 2. تعلم التفكير خطوة بخطوة: يستخدم النموذج بيانات محددة (GranulAR) لتعلم كيفية التفكير خطوة بخطوة باستخدام هذه الرموز المجردة. 3. استخراج الهيكل المنطقي العام: يتم استخراج البنية المنطقية العامة (التجرد) من الإجابة الرمزية. 4. حساب الإجابة الصحيحة: يتم استخدام هذا التجرد مع القيم الأصلية لحساب الإجابة الصحيحة. يعزز التعلم التعزيزي بوساطة جائزين، أحدهما للصحة والأخرى للتشابه الرمزي، من قدرة النموذج على إنتاج أنماط تفكير صحيحة ومجردة من السياق. تقييم AbstRaL على مهام التفكير الرياضي قام الباحثون بتقييم AbstRaL على مهام التفكير الرياضي باستخدام نماذج مثل Llama-3 وQwen2، وتدريبوها بقاعدة بيانات تُعرف بـ GranulAR التي تعيد كتابة المسائل الرياضية في شكل رمزي مجرد. هذا يساعد النماذج على التركيز على البنية بدلاً من التفاصيل السطحية. تم اختبار القوة باستخدام نسخ معدلة من مشكلات GSM8K، حيث تم تغيير الأرقام والأسماء والصياغات. مقارنة بالأساليب الأساسية مثل التحفيز عبر سلاسل الفكر التقليدية، أظهرت AbstRaL تتسامحاً أكبر وتقليلًا في انخفاض الدقة على هذه النسخ المعدلة. بشكل خاص، تحسنت موثوقية النماذج الأصغر حجمًا بشكل ملحوظ عبر المدخلات المعدلة. تشير النتائج إلى أن تعليم النماذج كيفية التفكير المجرد يجعلها أكثر مرونة وقلة اعتمادًا على الأنماط المحفوظة. الخلاصة في الختام، AbstRaL هي طريقة مصممة لتعزيز التفكير المجرد في نماذج LLMs، مما يجعلها أكثر مقاومة للتغييرات السطحية في المشكلات. على عكس التحسين التقليدي أو زيادة البيانات، تستخدم AbstRaL التعلم التعزيزي لتدريب النماذج على كلاميات GranulAR التي تجمع بين سلاسل الفكر السقراطية والتجرد التفصيلي. هذا النهج يساعد النماذج على إزالة التشتيتات السطحية والربط بشكل أفضل بالأدوات الرمزية. تم اختبار AbstRaL على مقاييس GSM8K الصعبة للتغيرات في التوزيع، وأظهرت تقليلًا ملحوظًا في انخفاض الأداء تحت التغيرات التوزيعية، وخاصة في النماذج الأصغر حجمًا. تدل الدراسة على أن تعلم التجرد يحسن القوة المنطقية بشكل أكثر فعالية من الاعتماد فقط على الإشراف المباشر. تقييم الخبر من قبل المختصين أكد المختصون في مجال الذكاء الاصطناعي أن AbstRaL تمثل خطوة مهمة نحو تطوير نماذج لغة أكثر قوة وموثوقية. يرى الكثيرون أن تعزيز القدرة على التفكير المجرد سيجعل النماذج قادرة على التعامل مع مشكلات أكثر تعقيدًا وتنوعًا، مما يفتح الباب أمام تطبيقات أوسع وأكثر فعالية في مجالات مثل التعليم والبحث العلمي والتطوير التكنولوجي. نبذة تعريفية عن Apple وEPFL Apple: شركة تكنولوجيا عالمية رائدة، معروفة بإنتاجها للأجهزة الالكترونية والبرمجيات والخدمات الرقمية. تساهم Apple بشكل كبير في البحث والتطوير في مجال الذكاء الاصطناعي والتعلم العميق. EPFL: المعهد الفدرالي السويسري للتكنولوجيا في لوزان، وهو أحد أهم المؤسسات البحثية في العالم في مجال العلوم الهندسية والتكنولوجيا. يشتهر EPFL ببحوثه المبتكرة في الذكاء الاصطناعي والروبوتات والعلوم الحاسوبية.