منذ 16 أيام

إلى تحسين الذات في نماذج لغة كبيرة من خلال التخيل، والبحث، والانتقاد

Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu

الملخص

على الرغم من الإمكانيات المذهلة لنموذجات اللغة الكبيرة (LLMs) في تنفيذ مجموعة متنوعة من المهام، تظل تواجه صعوبات في السيناريوهات التي تتطلب تفكيرًا معقدًا والتخطيط. وقد اقترح العمل الأخير تقنيات توجيه متقدمة وضرورة التخصيص (fine-tuning) باستخدام بيانات عالية الجودة لتعزيز قدرات نماذج اللغة الكبيرة على التفكير. ومع ذلك، تظل هذه النماذج محدودة جوهريًا بتوفر البيانات ونوعيتها. وبناءً على ذلك، تبرز تقنيات التصحيح الذاتي والتعلم الذاتي كحلول واقعية، من خلال استراتيجيات تسمح لنموذج اللغة الكبيرة بتحسين إخراجها والتعلم من مكافآت تقييم ذاتي. ومع ذلك، لا يزال أداء نماذج اللغة الكبيرة في تحسين إجاباتها ذاتيًا، خصوصًا في المهام المعقدة التي تتطلب التفكير والتخطيط، موضع شك. في هذه الورقة، نقدم AlphaLLM، وهو نموذج يُمكّن نماذج اللغة الكبيرة من التحسين الذاتي، حيث يدمج خوارزمية بحث شجرة مونت كارلو (MCTS) مع نماذج اللغة الكبيرة لبناء حلقة تحسين ذاتي، مما يعزز قدرات نماذج اللغة الكبيرة دون الحاجة إلى تسميات إضافية. مستوحى من نجاح AlphaGo، يعالج AlphaLLM التحديات الفريدة الناتجة عن دمج MCTS مع نماذج اللغة الكبيرة في سياق التحسين الذاتي، بما في ذلك ندرة البيانات، واتساع فضاءات البحث في المهام اللغوية، والطبيعة الذاتية لتقييم الملاحظات في المهام اللغوية. يتكون AlphaLLM من مكوّن لصياغة التوجيهات (prompt synthesis)، ونهج فعّال لخوارزمية MCTS مخصص للمهام اللغوية، وثلاثة نماذج ناقدة (critic models) لتوفير تغذية راجعة دقيقة. أظهرت النتائج التجريبية في مهام التفكير الرياضي تحسنًا ملحوظًا في أداء نماذج اللغة الكبيرة دون الحاجة إلى تسميات إضافية، مما يُظهر الإمكانات الكامنة للتحسين الذاتي في نماذج اللغة الكبيرة.