Researchers Develop Framework to Evaluate LLM Reasoning: Separating Knowledge from Logic in Math and Medicine
كيف تفكر النماذج اللغوية الكبيرة حقًا؟ إطار عمل لفصل المنطق عن المعرفة فك شفرة التفكير في النماذج اللغوية الحديثة: لماذا ليست الإجابات النهائية كافية حققت النماذج اللغوية الكبيرة (LLMs) التي تركز على التفكير، مثل نموذج o1/3 من OpenAI ونماذج DeepSeek-R1، تقدمًا ملحوظًا في المهام المعقدة. ومع ذلك، لا يزال العملية التحليلية خطوة بخطوة لهذه النماذج غير واضحة. غالبًا ما تركز التقييمات على دقة الإجابات النهائية، مما يخفي العملية التحليلية ولا يكشف كيف يقوم النموذج بدمج المعرفة والمنطق. هناك طرق سابقة حاولت قياس التفكير بمقارنة الإجابات مع السؤال الأصلي، لكن هذا النهج يعاني من عيوب لأن النماذج غالبًا ما تعتمد على استنتاجات سابقة أو معرفة داخلية. نقص تقييمات الإجابات النهائية في الرياضيات والطب حققت النماذج اللغوية الحديثة تقدمًا ملحوظًا في مهام التفكير، خاصة في مجالات مثل الرياضيات والطب، بفضل بيانات التدريب الأفضل واستراتيجيات المكافآت. ومع ذلك، يركز معظم هذا التقدم على زيادة دقة الإجابات النهائية بدلاً من فهم كيفية تفكير النموذج خطوة بخطوة. أشارت الدراسات السابقة إلى الأخطاء الواقعية في سلاسل الاستدلال أو قياس التشابه بين خطوات الاستدلال والسؤال الأصلي. ولكن هذه التشابهات لا تضمن السلامة المنطقية أو الدقة الواقعية، حيث غالبًا ما تعتمد النماذج اللغوية على المعرفة الداخلية أو الاستدلال السابق. إطار جديد لفصل المعرفة والمنطق في تفكير النماذج اللغوية الكبيرة قدم باحثون من جامعة كاليفورنيا في سانتا كروز، جامعة ستانفورد، وجامعة تونججي إطار عمل يتجاوز تقييم الإجابات النهائية من خلال تحليل تفكير النماذج اللغوية الكبيرة إلى جزأين رئيسيين: المعرفة الواقعية والخطوات المنطقية. قدم الباحثون مؤشرين مهمين: مؤشر المعرفة (KI) لقياس الدقة الواقعية، ومقدار المعلومات المكتسبة (InfoGain) لقياس جودة التفكير. تحليلهم لنماذج Qwen عبر مهام الرياضيات والطب كشف أن مهارات التفكير لا تنتقل بسهولة بين المجالات. بينما يحسن التدريب الدقيق تحت الإشراف (SFT) الدقة، فإنه غالبًا ما يضعف عمق التفكير. التعلم التعزيزي (RL)، من ناحية أخرى، يساعد في تحسين التفكير بإزالة المعلومات غير ذات الصلة. تقييم التفكير باستخدام نماذج Qwen2.5-7B وDeepSeek-R1 قام الباحثون بتقييم التفكير في النماذج اللغوية الكبيرة من خلال تحليل نموذج Qwen2.5-7B ونسخة DeepSeek-R1 المُستخلصة منه، والتي تم تدريبها باستخدام SFT وRL. استخدموهم مهامًا من مجالات الرياضيات والطب، وفككوا الردود إلى خطوات منطقية وتقيمواها باستخدام مؤشرين رئيسيين: مقدار المعلومات المكتسبة (كمية الغموض التي يتم تقليلها مع كل خطوة تفكير) ومؤشر المعرفة (دقة كل خطوة منطقية، والتي تم التحقق منها من خلال مصادر خبراء). بينما يتتبع InfoGain المعلوماتية لكل خطوة، يتحقق KI من انسجام المعرفة مع الحقائق الواقعية. هذا النهج يكشف كيف يفكر النموذج وأين قد يفشل في الدقة أو المنطق. مقارنة بين التدريب الدقيق تحت الإشراف والتعلم التعزيزي في المهام الخاصة بالمجالات قامت الدراسة بتقييم نسختين من Qwen-2.5-7B: Qwen-Base والنسخة المُستخلصة Qwen-R1 في مهام الطب. أظهرت النتائج أن Qwen-Base يتفوق باستمرار على Qwen-R1 في الدقة، احتفاظ المعرفة، والتفكير، خاصة بعد التدريب الدقيق تحت الإشراف (SFT) والتعلم التعزيزي (RL). يبدو أن النموذج المستخلص يواجه صعوبات بسبب التركيز السابق على مهام الرياضيات والبرمجة، مما يؤدي إلى عدم التطابق بين المجالات. بشكل مثير للإعجاب، يعزز التدريب الدقيق تحت الإشراف المعرفة الطبية بشكل أكثر فعالية من التعلم التعزيزي، رغم أنه قد يقلل قليلاً من كفاءة التفكير. بينما يحسن التعلم التعزيزي كلًا من التفكير والمعرفة عند تطبيقه بعد SFT. القياسات الطبية تعتمد بشكل أكبر على المعرفة الواقعية أكثر من التفكير المجرد، على عكس مهام الرياضيات. الخلاصة: نحو نماذج لغوية أكثر وضوحًا وموثوقية في الخلاصة، تقدم الدراسة إطار عمل يفصل المعرفة عن التفكير لتقييم أفضل لكيفية تفكير النماذج اللغوية الكبيرة، خاصة في المجالات ذات المخاطر العالية مثل الطب والرياضيات. باستخدام نماذج Qwen المدربة بواسطة SFT وRL، وجد الباحثون أن SFT يحسن الدقة الواقعية، وهي ضرورية في الطب، ولكنه غالبًا ما يضعف التفكير. RL، من ناحية أخرى، يعزز التفكير بإزالة المعلومات الخاطئة. يمكن توسيع هذا الإطار إلى مجالات أخرى مثل القانون والمالية، حيث يعتبر التفكير الهيكلي أمرًا حاسمًا. في المجمل، يساعد هذا النهج في توضيح كيفية اتخاذ النماذج اللغوية الكبيرة للقرارات ويشير إلى طرق ل tailoring تدريبها للمجالات المحددة. تقييم الحدث من قبل المختصين ونبذة عن الشركة أكد المختصون في الذكاء الاصطناعي أن هذا الإطار الجديد يمكن أن يساهم بشكل كبير في تطوير نماذج لغوية أكثر موثوقية وقابلية للتفسير. يتيح هذا الإطار فهمًا أعمق للعملية التحليلية التي يمر بها النموذج، مما يساعد في تحديد نقاط الضعف والقوة في التدريب والتطبيق. شركة Qwen هي جزء من Alibaba Cloud، وتتخصص في تطوير النماذج اللغوية الكبيرة التي تستخدم في مجموعة واسعة من التطبيقات، بما في ذلك المعالجة الطبيعية للغة والترجمة وتحليل البيانات. هذا العمل يؤكد التزام Alibaba Cloud بتطوير تقنيات الذكاء الاصطناعي التي تكون أكثر فعالية وشفافية.