HyperAIHyperAI

Command Palette

Search for a command to run...

TheoremQA: Ein theorembasierter Frage- und Antwortdatensatz

Wenhu Chen Ming Yin Max Ku Pan Lu Yixin Wan Xueguang Ma Jianyu Xu Xinyi Wang Tony Xia

Zusammenfassung

Die neuesten großen Sprachmodelle (LLMs) wie GPT-4 und PaLM-2 haben bei der Lösung grundlegender Mathematikaufgaben, wie GSM8K, erhebliche Fortschritte gemacht und eine Genauigkeit von über 90 % erreicht. Allerdings sind ihre Fähigkeiten, anspruchsvollere Mathematikaufgaben zu lösen, die spezifisches Fachwissen (d.h. Sätze) erfordern, noch nicht ausreichend untersucht worden. In dieser Arbeit stellen wir TheoremQA vor, den ersten satzgetriebenen Frage-Antwort-Datensatz, der entwickelt wurde, um die Fähigkeiten künstlicher Intelligenzmodelle zu bewerten, Sätze anzuwenden, um schwierige wissenschaftliche Probleme zu lösen. TheoremQA wurde von Fachexperten zusammengestellt und enthält 800 hochwertige Fragen, die 350 Sätze abdecken (z.B. Satz von Taylor, Satz von Lagrange, Huffman-Codierung, Quantensatz [Quantum Theorem], Elastizitätssatz [Elasticity Theorem] usw.) aus den Bereichen Mathematik, Physik, Elektrotechnik & Computerwissenschaft sowie Finanzwesen. Wir evaluieren ein breites Spektrum von 16 großen Sprach- und Code-Modellen mit verschiedenen Prompting-Strategien wie Chain-of-Thoughts und Program-of-Thoughts. Wir stellten fest, dass GPT-4 bei der Lösung dieser Aufgaben uneinholbar ist und mit Program-of-Thoughts-Prompting eine Genauigkeit von 51 % erreicht. Alle existierenden Open-Source-Modelle liegen unter 15 % und übertreffen kaum das Zufallsgutachten-Level (random-guess baseline). Angesichts der Vielfalt und des umfassenden Themenspektrums von TheoremQA glauben wir, dass es als bessere Referenz verwendet werden kann, um die Fähigkeiten großer Sprachmodelle bei der Lösung anspruchsvoller wissenschaftlicher Probleme zu bewerten. Die Daten und das Code sind auf https://github.com/wenhuchen/TheoremQA veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp