حل المشكلات الرياضية المعقدة باستخدام مفسر الشفرة GPT-4 مع التحقق الذاتي القائم على الشفرة

أحرزت النماذج اللغوية الكبيرة (LLMs) مثل GPT-4 وPaLM-2 تقدماً ملحوظاً في معالجة المشكلات المتعلقة بالاستدلال الرياضي. وبشكل خاص، أظهرت أحدث إصدار من GPT-4 من OpenAI، المعروف باسم GPT-4 Code Interpreter، أداءً متميزاً على مجموعات بيانات رياضية صعبة. في هذه الورقة، نستعرض تأثير استخدام الكود على تعزيز قدرة النماذج اللغوية الكبيرة على الاستدلال من خلال إدخال قيود مختلفة على مُعدّل معدل استخدام الكود في GPT-4 Code Interpreter. ووجدنا أن نجاح هذا النموذج يعود بشكل كبير إلى مهارته الفائقة في إنشاء الكود وتنفيذه، وتقييم نتائج تنفيذ الكود، وتصحيح الحل عندما يتلقى نتائج غير منطقية. استناداً إلى هذه الرؤية، نقترح طريقة جديدة وفعالة للتحفيز، تُسمى التحقق الذاتي القائم على الكود الصريح (CSV)، بهدف تعزيز القدرة الرياضية على الاستدلال في GPT-4 Code Interpreter. تعتمد هذه الطريقة على استخدام دعوة صفرية (zero-shot prompt) مع GPT-4 Code Interpreter لتشجيعه على استخدام الكود للتحقق من صحة إجاباته ذاتياً. وفي الحالات التي يُسجّل فيها حالة التحقق على أنها "خاطئة" (False)، يُعدّل النموذج حلّه تلقائياً، بشكل مشابه لطريقة تصحيح الأخطاء أثناء امتحان رياضي. علاوة على ذلك، نلاحظ أن حالات نتيجة التحقق تعكس درجة الثقة في الحل، مما يُحسّن فعالية طريقة التصويت الأغلبي. وباستخدام GPT-4 Code Interpreter مع CSV، نحقق دقة صفرية مذهلة على مجموعة بيانات MATH (من 53.9٪ إلى 84.3٪).