منذ 8 أشهر

الملخص

النماذج اللغوية الكبيرة الحديثة مثل GPT-4 و PaLM-2 قد أحرزت تقدماً هائلاً في حل المشكلات الرياضية الأساسية مثل GSM8K، حيث حققت دقة تزيد عن 90%. ومع ذلك، فإن قدراتها على حل المشكلات الرياضية الأكثر تحدياً التي تتطلب معرفة خاصة بالحقل (مثل نظرية) لم يتم التحقيق فيها بعد. في هذا البحث، نقدم TheoremQA، وهو أول مجموعة بيانات للأسئلة والإجابات المستندة إلى النظرية المصممة لتقييم قدرات النماذج الذكائية على تطبيق النظريات لحل المشكلات العلمية الصعبة. تحتوي TheoremQA على 800 سؤال منتقى بدقة من قبل خبراء الحقول المختلفة، وتغطي 350 نظرية (مثل نظرية تايلور، نظرية لاغرانج، ترميز هافمان، النظرية الكمية (Quantum Theorem)، نظرية المرونة (Elasticity Theorem) وغيرها) من الرياضيات والفيزياء وهندسة الكهرباء والحاسوب والمالية. قمنا بتقييم طيف واسع يشمل 16 نموذجاً لغوياً وكودياً كبيراً باستخدام استراتيجيات مختلفة للتحفيز مثل سلسلة الأفكار (Chain-of-Thoughts) وبرنامج الأفكار (Program-of-Thoughts). اكتشفنا أن قدرات GPT-4 على حل هذه المشكلات لا مثيل لها، حيث حققت دقة تبلغ 51% باستخدام تحفيز برنامج الأفكار. جميع النماذج المفتوحة المصدر الموجودة حالياً هي أقل من 15%，كادت فقط أن تتجاوز مستوى التخمين العشوائي. بالنظر إلى التنوع والتغطية الشاملة لمجموعة البيانات TheoremQA، نعتقد أنها يمكن استخدامها كمعيار أفضل لتقييم قدرات النماذج اللغوية الكبيرة على حل المشكلات العلمية الصعبة. تم إصدار البيانات والكود في https://github.com/wenhuchen/TheoremQA.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Wenhu Chen Ming Yin Max Ku Pan Lu Yixin Wan Xueguang Ma Jianyu Xu Xinyi Wang Tony Xia

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Wenhu Chen Ming Yin Max Ku Pan Lu Yixin Wan Xueguang Ma Jianyu Xu Xinyi Wang Tony Xia

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Wenhu Chen Ming Yin Max Ku Pan Lu Yixin Wan Xueguang Ma Jianyu Xu Xinyi Wang Tony Xia

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TheoremQA: مجموعة بيانات للإجابة على الأسئلة بالاعتماد على النظريات

Wenhu Chen Ming Yin Max Ku Pan Lu Yixin Wan Xueguang Ma Jianyu Xu Xinyi Wang Tony Xia

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TheoremQA: مجموعة بيانات للإجابة على الأسئلة بالاعتماد على النظريات

Wenhu Chen Ming Yin Max Ku Pan Lu Yixin Wan Xueguang Ma Jianyu Xu Xinyi Wang Tony Xia

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TheoremQA: مجموعة بيانات للإجابة على الأسئلة بالاعتماد على النظريات

Wenhu Chen Ming Yin Max Ku Pan Lu Yixin Wan Xueguang Ma Jianyu Xu Xinyi Wang Tony Xia

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters