HyperAIHyperAI
il y a 2 mois

TheoremQA : Un ensemble de données pour le questionnement et les réponses guidés par des théorèmes

Wenhu Chen; Ming Yin; Max Ku; Pan Lu; Yixin Wan; Xueguang Ma; Jianyu Xu; Xinyi Wang; Tony Xia
TheoremQA : Un ensemble de données pour le questionnement et les réponses guidés par des théorèmes
Résumé

Les modèles de langage récents tels que GPT-4 et PaLM-2 ont réalisé des progrès considérables dans la résolution de problèmes mathématiques fondamentaux comme GSM8K, en atteignant une précision supérieure à 90 %. Cependant, leurs capacités à résoudre des problèmes mathématiques plus complexes nécessitant des connaissances spécifiques à un domaine (c'est-à-dire des théorèmes) n'ont pas encore été étudiées. Dans cet article, nous présentons TheoremQA, le premier ensemble de données de questions-réponses basées sur des théorèmes conçu pour évaluer les capacités des modèles d'IA à appliquer des théorèmes pour résoudre des problèmes scientifiques difficiles. TheoremQA a été compilé par des experts du domaine et contient 800 questions de haute qualité couvrant 350 théorèmes (par exemple, le théorème de Taylor, le théorème de Lagrange, le codage de Huffman, le Théorème Quantique (Quantum Theorem), le Théorème d'Élasticité (Elasticity Theorem), etc.) issus des domaines des Mathématiques, de la Physique, de l'Ingénierie Électrique et Informatique (EE&CS) et de la Finance. Nous avons évalué un large spectre de 16 grands modèles linguistiques et de code avec différentes stratégies d'incitation comme la chaîne de pensée (Chain-of-Thoughts) et le programme de pensée (Program-of-Thoughts). Nous avons constaté que les capacités de GPT-4 à résoudre ces problèmes sont sans égales, atteignant une précision de 51 % avec l'incitation par programme de pensée. Tous les modèles existants à source ouverte se situent en dessous de 15 %, dépassant à peine la performance d'une réponse aléatoire. Compte tenu de la diversité et de la couverture étendue de TheoremQA, nous croyons qu'il peut être utilisé comme un meilleur benchmark pour évaluer les capacités des modèles LLM à résoudre des problèmes scientifiques difficiles. Les données et le code sont disponibles sur https://github.com/wenhuchen/TheoremQA.

TheoremQA : Un ensemble de données pour le questionnement et les réponses guidés par des théorèmes | Articles de recherche récents | HyperAI