طريقة مبتكرة من Meta و NYU تعتمد على التعلم التقويمي شبه المباشر لتحسين توافق نماذج اللغة الكبيرة مع البشر
طريقة جديدة من Meta و NYU لتعزيز تطابق النماذج اللغوية الكبيرة باستخدام التعلم التعزيزي شبه المباشر تحسين النماذج اللغوية الكبيرة للتطابق البشري تتطلب النماذج اللغوية الكبيرة غالبًا مرحلة تطابق إضافية لتحسين أدائها للاستخدام البشري. في هذه المرحلة، يلعب التعلم التعزيزي دورًا أساسيًا حيث يتيح للنماذج اتخاذ قرارات بناءً على ردود الفعل البشرية أو صحة المهام. هذا التحسين الدقيق يساعد النماذج على التطابق بشكل أفضل مع توقعات المستخدمين، مما يجعلها أكثر ملاءمة للتطبيقات القائمة على التعليمات أو المهام الرياضية الدقيقة. تحديات اختيار استراتيجيات التعلم التعزيزي الخطي أو المباشر يظهر تحدي كبير عند اختيار الطريقة الأكثر فعالية لإجراء هذا التحسين الدقيق. تتراوح طرق التدريب بين التدريب الخطي التي تعتمد على بيانات ثابتة مسبقًا، والتدريب المباشر الذي يتم تحديثه باستمرار مع كل تفاعل جديد. لكل طريقة تحدياتها الخاصة؛ فالنماذج الخطية لا تستطيع التكيف أثناء التدريب، مما يحد من أدائها، بينما تتطلب النماذج المباشرة موارد حاسوبية أكبر. بالإضافة إلى ذلك، ضمان أداء النماذج بشكل جيد في المهام الرياضية (القابلة للتحقق) والمهام المفتوحة (غير القابلة للتحقق) يزيد من تعقيد هذا الخيار. مراجعة خوارزميات التطابق: DPO و GRPO في الماضي، تم استخدام أدوات مثل Direct Preference Optimization (DPO) و Group Relative Policy Optimization (GRPO) للتطابق النموذجي. تعمل DPO بشكل خطي وتصمم للعمل مع أزواج البيانات القائمة على التفضيلات. تُقدر لبساطتها وكفاءتها في استخدام البيانات لكنها تفتقر إلى مرونة الطرق المباشرة. أما GRPO فهي تعتمد على خوارزمية PPO وتتعامل مع التدريب المباشر عبر مقارنة مجموعات من النواتج لحساب المزايا النسبية. رغم أن GRPO تتأقلم في الوقت الفعلي وتتناسب مع أنظمة المكافآت الديناميكية، فإن طبيعتها على السياسة تزيد من الحمل الحاسوبي وتجعل التجارب أصعب. بديل متوازن لتطابق النماذج اللغوية الكبيرة قدم البحث الذي أجرته Meta و NYU طريقة جديدة لتجاوز هذه التحديات من خلال إعداد تدريب شبه مباشر. تتحكم هذه الطريقة في مدى تكرار تحديث مكونات توليد النموذج وتدريبه، بدلاً من تحديثها في كل خطوة تدريبية كما في الطرق المباشرة تمامًا، أو عدم تحديثها على الإطلاق كما في الطرق الخطية. الطريقة شبه المباشرة تحقق التوازن من خلال تعديل معدل التزامن. صمم الفريق هذا النهج لتقليل وقت التدريب والحفاظ على مرونة عالية للنموذج. السيناريو المعياري أيضًا سمح لهم بتطبيق DPO أو GRPO مع أنظمة مكافآت محددة للمهمة بطريقة مرنة. تدريب النموذج وأداء المهام تم تدريب النموذج Llama-3.1-8B-Instruct باستخدام نوعين من المهام: التتبع المفتوح للتعليمات وحل المسائل الرياضية. بالنسبة للمهام غير القابلة للتحقق، تم جمع دفعات المستخدمين من مجموعة البيانات WildChat-1M وتقييمها باستخدام نموذج المكافآت Athene-RM-8B، والذي يحدد نقاط سلمية لكل دفعة. وبالنسبة للمهام القابلة للتحقق، استخدم الفريق مجموعة البيانات NuminaMath مع أداة التحقق Math-Verify، والتي تتحقق مما إذا كانت الأجوبة المولدة تتفق مع النواتج المتوقعة. أجريت تجارب التدريب على 32 بطاقة رسومية NVIDIA H200 لتدريب النموذج و8 بطاقات لاستنتاج النواتج، مع مقارنات مختلفة بين تزامن النموذج الخطي، شبه المباشر، والمباشر. زيادة الأداء في كلا النوعين من المهام ظهرت فروق في الأداء. على مقياس Math500، حققت DPO الخطي دقة 53.7%، بينما حققت DPO شبه المباشرة بمعدل تزامن s = 100 دقة 58.9%. أظهرت DPO و GRPO المباشرتان نتائج مشابهة عند 58.7% و 58.1% على التوالي. تكررت هذه الاتجاهات على مقياس NuminaMath، حيث حققت DPO الخطي 36.4%، وزادت النسخ شبه المباشرة هذا إلى 39.4% (s = 10). لم تقتصر مكاسب الأداء على المهام الرياضية فحسب، بل عند تقييم المهام غير القابلة للتحقق باستخدام معايير AlpacaEval 2.0 و Arena-Hard، أظهرت النماذج المدربة بمكافآت مختلطة نتائج أفضل بشكل متسق. الجمع بين المكافآت القابلة للتحقق وغير القابلة للتحقق في إعداد تدريبي واحد أدى إلى متوسط نقاط أعلى، مما يشير إلى أن الطريقة تعمم بشكل فعال. نهج مرن وقابل للتطوير للتعلم التعزيزي في النماذج اللغوية الكبيرة يؤكد هذا البحث أن تحسين النماذج اللغوية الكبيرة لا يحتاج إلى التمسك الصارم بالطرق الخطية أو المباشرة. من خلال إدخال مخطط التزامن المرنة، نجح فريق البحث من Meta و NYU في زيادة كفاءة التدريب مع الحفاظ على أو تحسين الأداء. تظهر النتائج أن تحقيق التوازن بعناية بين أنواع المكافآت ومعدل التزامن في التدريب يؤدي إلى نماذج تؤدي بشكل جيد في أنواع مختلفة من المهام دون تحمل تكاليف حاسوبية عالية. تقييم الحدث من قبل المختصين يرى المختصون في مجال الذكاء الاصطناعي أن هذا النهج الجديد من Meta و NYU يعد خطوة مهمة نحو تحسين كفاءة وفعالية النماذج اللغوية الكبيرة. يوفر هذا الطريقة مرونة أكبر في التدريب، مما يمكن الشركات والباحثين من تكوين نماذج أكثر ملاءمة ودقة للاستخدامات المختلفة، خاصة في التطبيقات التي تتطلب تفاعلات زمنية حقيقية أو تحققًا مستمرًا من النواتج. نبذة تعريفية عن Meta و NYU تعتبر Meta من الشركات الرائدة في تطوير تقنيات الذكاء الاصطناعي، وتشتهر بابتكاراتها في مجالات مثل النماذج اللغوية والتعلم العميق. من جهتها، تتميز جامعة نيويورك (NYU) ببحثها الأكاديمي المتقدم في الذكاء الاصطناعي والتعلم الآلي، مما يجعل الشراكة بينهما مثمرة في تطوير حلول مبتكرة تساهم في تقدم هذا المجال.