HyperAIHyperAI

Command Palette

Search for a command to run...

DART-Math: ضبط الرفض مع الوعي بالصعوبة لحل المشكلات الرياضية

Yuxuan Tong Xiwen Zhang Rui Wang Ruidong Wu Junxian He

الملخص

حل المشكلات الرياضية يتطلب قدرات استدلال متقدمة ويقدم تحديات ملحوظة للنماذج اللغوية الكبيرة. في الأبحاث السابقة، يتم عادةً توليد البيانات من نماذج خاصة لتوسيع المجموعات البيانات الموجودة، ثم تعديل التعليمات لتحقيق نتائج رائدة. ومع ذلك، كشف تحليلنا لهذه المجموعات البيانات عن انحيازات شديدة نحو الاستفسارات السهلة، مع فشل متكرر في إنتاج أي رد صحيح على الاستفسارات الأكثر صعوبة. بناءً على فرضية أن الاستفسارات الصعبة ضرورية لتعلم الاستدلال المعقد، نقترح تقنية التحكم في الرفض واعية بالصعوبة (DART)، وهي طريقة تخصص المزيد من المحاولات للأسئلة الصعبة خلال مرحلة التركيب، مما يمكّن من التدريب بشكل أكثر شمولًا على العينات الصعبة. باستخدام DART، أنشأنا مجموعات بيانات جديدة لحل المشكلات الرياضية تركز بشكل أكبر على الأسئلة الصعبة وتكون أصغر بكثير من سابقاتها. وبشكل ملحوظ، يعتمد عملية التركيب لدينا فقط على نموذج بوزن مفتوح حجمه 7 مليار معلمة (7B)، دون الاعتماد على النموذج الخاص الشائع GPT-4. قمنا بتعديل مجموعة متنوعة من النماذج الأساسية على مجموعات البيانات الخاصة بنا التي تتراوح أحجامها بين 7 مليار و70 مليار معلمة، مما أدى إلى إنشاء سلسلة من النماذج القوية المسماة DART-MATH. في تقييم شامل داخل المجال وخارجه باستخدام ست مقاييس رياضية، حقق DART-MATH أداءً أفضل بكثير من التعديل التقليدي للرفض، وهو أفضل أو مماثل للأعمال السابقة رغم استخدامه لمجموعات بيانات أصغر بكثير وعدم اعتماده على أي نماذج خاصة. بالإضافة إلى ذلك، تشير نتائجنا إلى أن مجموعات البيانات المركبة لدينا هي الأكثر فعالية وكفاءة من حيث التكلفة بين المصادر المتاحة للجمهور لتطوير حل المشكلات الرياضية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp