HyperAIHyperAI

Command Palette

Search for a command to run...

TheoremQA: مجموعة بيانات للإجابة على الأسئلة بالاعتماد على النظريات

Wenhu Chen Ming Yin Max Ku Pan Lu Yixin Wan Xueguang Ma Jianyu Xu Xinyi Wang Tony Xia

الملخص

النماذج اللغوية الكبيرة الحديثة مثل GPT-4 و PaLM-2 قد أحرزت تقدماً هائلاً في حل المشكلات الرياضية الأساسية مثل GSM8K، حيث حققت دقة تزيد عن 90%. ومع ذلك، فإن قدراتها على حل المشكلات الرياضية الأكثر تحدياً التي تتطلب معرفة خاصة بالحقل (مثل نظرية) لم يتم التحقيق فيها بعد. في هذا البحث، نقدم TheoremQA، وهو أول مجموعة بيانات للأسئلة والإجابات المستندة إلى النظرية المصممة لتقييم قدرات النماذج الذكائية على تطبيق النظريات لحل المشكلات العلمية الصعبة. تحتوي TheoremQA على 800 سؤال منتقى بدقة من قبل خبراء الحقول المختلفة، وتغطي 350 نظرية (مثل نظرية تايلور، نظرية لاغرانج، ترميز هافمان، النظرية الكمية (Quantum Theorem)، نظرية المرونة (Elasticity Theorem) وغيرها) من الرياضيات والفيزياء وهندسة الكهرباء والحاسوب والمالية. قمنا بتقييم طيف واسع يشمل 16 نموذجاً لغوياً وكودياً كبيراً باستخدام استراتيجيات مختلفة للتحفيز مثل سلسلة الأفكار (Chain-of-Thoughts) وبرنامج الأفكار (Program-of-Thoughts). اكتشفنا أن قدرات GPT-4 على حل هذه المشكلات لا مثيل لها، حيث حققت دقة تبلغ 51% باستخدام تحفيز برنامج الأفكار. جميع النماذج المفتوحة المصدر الموجودة حالياً هي أقل من 15%,كادت فقط أن تتجاوز مستوى التخمين العشوائي. بالنظر إلى التنوع والتغطية الشاملة لمجموعة البيانات TheoremQA، نعتقد أنها يمكن استخدامها كمعيار أفضل لتقييم قدرات النماذج اللغوية الكبيرة على حل المشكلات العلمية الصعبة. تم إصدار البيانات والكود في https://github.com/wenhuchen/TheoremQA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp