HyperAI
Back to Headlines

طريقة ASTRO تحقق تحسينات كبيرة في أداء لاما 3 في حل المسائل الرياضية بنسبة 16٪ إلى 20٪ دون تغيير الهيكل المعماري

منذ 2 أيام

هل يمكن تحسين قدرات الاستدلال في نموذج Llama 3 من خلال التدريب ما بعد التكوين فقط؟ يكشف ASTRO عن زيادة تتراوح بين 16٪ و20٪ في مقاييس الأداء تعتبر تحسين قدرات الاستدلال في النماذج اللغوية الكبيرة (LLMs) دون الحاجة إلى تغييرات هندسية تحديًا أساسيًا في تطوير توافق الذكاء الاصطناعي واستخدامه. قام باحثون من Meta AI وجامعة واشنطن بتقديم ASTRO—وهو اختصار لـ Autoregressive Search-Taught Reasoner—إطار عمل ما بعد التدريب الجديد المصمم لتعزيز الاستدلال في نموذج Llama-3.1-70B-Instruct. يتميز ASTRO بتعليمه للنماذج كيفية تنفيذ البحث السياقي، والتأمل الذاتي، والرجوع إلى الوراء، وهي آليات غالبًا ما تكون مرتبطة بحل المشكلات البشرية والخوارزميات الرمزية التقليدية. يبدأ منهج ASTRO بإجراء بحث شجرة القرار باستخدام طريقة Monte Carlo Tree Search (MCTS) على مسارات حل المشكلات الرياضية. يستكشف هذا البحث مسارات الاستدلال الصحيحة والخاطئة. الإبداع الرئيسي هو تقنية "نسخ الإجراءات" (procedure cloning)، حيث يتم تحويل الأشجار البحثية بأكملها إلى سلاسل طويلة من الأفكار (chain-of-thoughts، CoT) التي ترميز بشكل طبيعي لكل من الفشل والاسترجاع عبر التأمل الذاتي والرجوع إلى الوراء. يتم إعادة صياغة هذه السلاسل الطويلة بلغة طبيعية وتستخدم كأساس للتدريب الدقيق تحت إشراف (supervised fine-tuning، SFT). نتيجة لذلك، يصبح النموذج قادرًا ليس فقط على حل المشكلات خطوة بخطوة، ولكن أيضًا على إعادة تقييم مساره والرجوع إلى الوراء بعد تقييم ذاتي لتصحيح الأخطاء الوسطية. على سبيل المثال، قد يتدخل النموذج بعبارات مثل "لنعد إلى مكان إعداد المعادلة" عندما تنخفض ثقته الداخلية. التدريب الدقيق: حقن الأولويات البحثية يقوم ASTRO بتدريب نموذج Llama-3.1-70B-Instruct على 36.1 ألف حل مُعد بعناية من مجموعات بيانات MATH، AMC/AIME، وAoPS. يحقق النموذج المدرب باستخدام ASTRO-SFT: أداء رياضي تنافسي على عدة مقاييس. تجاوز أو مساواة نماذج الفئات SPOC/Step-KTO التي تم تدريبها دون أولويات بحثية صريحة. من المهم أن حتى التدريب الدقيق وحده—دون استخدام التعلم التعزيزي—مما يعزز الأداء من خلال تعريض النموذج للبيانات التي تتبع هيكل البحث. التعلم التعزيزي مع التمهيد الواعي للبحث يتقدم ASTRO إلى التعلم التعزيزي (RL) من خلال تمهيد النموذج باستخدام نقطة التدريب الدقيق (SFT checkpoint) وتشغيل حلقة تدريبية تعزيزية باستخدام طريقة Group Relative Policy Optimization (GRPO) المعدلة. على عكس التعلم التعزيزي التقليدي القائم على التفضيلات، يستخدم ASTRO إشارات جائزة قابلة للتحقق (+1 لصحيح، -1 لخاطئ) على 8.7 ألف دعوة صعبة متوسطة. أثناء التدريب، تنمو سلاسل الأفكار (CoT) التي يولدتها النموذج من حوالي 1.8 ألف إلى حوالي 6 آلاف رمز، مما يدل على استكشاف داخلي أعمق. النموذج الناتج ASTRO-RL يحقق: نتائج تنافسية تتجاوز نماذج ذات أحجام معلمة أكبر. تؤكد أهمية التمهيد الواعي للبحث في ASTRO. العلاقة بين الرجوع إلى الوراء ونجاح الاستدلال من الملاحظات التجريبية الملفتة للنظر هو الارتباط الإيجابي بين تكرار الرجوع إلى الوراء والأداء. كلما تقدم التدريب، زادت أفعال التصحيح الذاتي واستكشاف النموذج ASTRO-RL. تتجاوز معاملات الارتباط بيرسون 0.8 على جميع المقاييس، مما يشير إلى أن التأمل الذاتي والرجوع إلى الوراء ليست مجرد سلوكيات زخرفية ولكنها مرتبطة وظيفيًا بدقة أعلى. مقارنات وتأثير أوسع تجارب التحكم التي تقارن ASTRO بنماذج تم تدريبها على حلول سلاسل الأفكار المباشرة (بدون أولويات بحثية) تكشف أن ASTRO يتفوق بشكل مستمر حتى عندما يتم تدريبه على نفس مجموعات المشكلات والأشجار البحثية. على سبيل المثال، يتفوق ASTRO-RL على Direct-RL ب: أداء أعلى في حل المشكلات الرياضية. قدرة أفضل على التأمل الذاتي والرجوع إلى الوراء. بالإضافة إلى ذلك، يمكن تصور مخرجات ASTRO كرسوم موجهة، حيث تمثل العقد خطوات الاستدلال، والحواف تُظهر الانتقالات، والتأملات، والتصحيحات—مما يساهم في تفسير أفضل. الاستنتاج يُظهر ASTRO أنه يمكن لنماذج LLMs مثل Llama 3 تعلم الاستدلال بشكل أكثر فعالية ليس عن طريق زيادة حجم النماذج أو فترة التكوين الأولى، ولكن من خلال تقنيات ما بعد التدريب المنهجية. من خلال تقليد خوارزميات البحث باللغة الطبيعية، يمكن لـ ASTRO تمكين النماذج من التفكير قبل الإجابة، الشك في خطواتها، وتصحيح نفسها أثناء عملية الاستدلال. يضع هذا الإطار معيارًا جديدًا لتدريب النماذج اللغوية المفتوحة للوصول إلى استدلال شبيه بالإنساني من خلال سلوكيات مستوحاة من البحث. يمكنك الاطلاع على الورقة البحثية. جميع حقوق هذا البحث تعود إلى الباحثين المشار إليهم. كما يمكنك متابعتنا على تويتر وانضم إلى مجتمعنا على Reddit الذي يضم أكثر من 100 ألف عضو واشترك في نشرتنا الإخبارية.

Related Links