HyperAIHyperAI
منذ 2 أشهر

TheoremQA: مجموعة بيانات للإجابة على الأسئلة بالاعتماد على النظريات

Wenhu Chen; Ming Yin; Max Ku; Pan Lu; Yixin Wan; Xueguang Ma; Jianyu Xu; Xinyi Wang; Tony Xia
TheoremQA: مجموعة بيانات للإجابة على الأسئلة بالاعتماد على النظريات
الملخص

النماذج اللغوية الكبيرة الحديثة مثل GPT-4 و PaLM-2 قد أحرزت تقدماً هائلاً في حل المشكلات الرياضية الأساسية مثل GSM8K، حيث حققت دقة تزيد عن 90%. ومع ذلك، فإن قدراتها على حل المشكلات الرياضية الأكثر تحدياً التي تتطلب معرفة خاصة بالحقل (مثل نظرية) لم يتم التحقيق فيها بعد. في هذا البحث، نقدم TheoremQA، وهو أول مجموعة بيانات للأسئلة والإجابات المستندة إلى النظرية المصممة لتقييم قدرات النماذج الذكائية على تطبيق النظريات لحل المشكلات العلمية الصعبة. تحتوي TheoremQA على 800 سؤال منتقى بدقة من قبل خبراء الحقول المختلفة، وتغطي 350 نظرية (مثل نظرية تايلور، نظرية لاغرانج، ترميز هافمان، النظرية الكمية (Quantum Theorem)، نظرية المرونة (Elasticity Theorem) وغيرها) من الرياضيات والفيزياء وهندسة الكهرباء والحاسوب والمالية. قمنا بتقييم طيف واسع يشمل 16 نموذجاً لغوياً وكودياً كبيراً باستخدام استراتيجيات مختلفة للتحفيز مثل سلسلة الأفكار (Chain-of-Thoughts) وبرنامج الأفكار (Program-of-Thoughts). اكتشفنا أن قدرات GPT-4 على حل هذه المشكلات لا مثيل لها، حيث حققت دقة تبلغ 51% باستخدام تحفيز برنامج الأفكار. جميع النماذج المفتوحة المصدر الموجودة حالياً هي أقل من 15%,كادت فقط أن تتجاوز مستوى التخمين العشوائي. بالنظر إلى التنوع والتغطية الشاملة لمجموعة البيانات TheoremQA، نعتقد أنها يمكن استخدامها كمعيار أفضل لتقييم قدرات النماذج اللغوية الكبيرة على حل المشكلات العلمية الصعبة. تم إصدار البيانات والكود في https://github.com/wenhuchen/TheoremQA.

TheoremQA: مجموعة بيانات للإجابة على الأسئلة بالاعتماد على النظريات | أحدث الأوراق البحثية | HyperAI