TheoremQA: Ein theorembasierter Frage- und Antwortdatensatz

Die neuesten großen Sprachmodelle (LLMs) wie GPT-4 und PaLM-2 haben bei der Lösung grundlegender Mathematikaufgaben, wie GSM8K, erhebliche Fortschritte gemacht und eine Genauigkeit von über 90 % erreicht. Allerdings sind ihre Fähigkeiten, anspruchsvollere Mathematikaufgaben zu lösen, die spezifisches Fachwissen (d.h. Sätze) erfordern, noch nicht ausreichend untersucht worden. In dieser Arbeit stellen wir TheoremQA vor, den ersten satzgetriebenen Frage-Antwort-Datensatz, der entwickelt wurde, um die Fähigkeiten künstlicher Intelligenzmodelle zu bewerten, Sätze anzuwenden, um schwierige wissenschaftliche Probleme zu lösen. TheoremQA wurde von Fachexperten zusammengestellt und enthält 800 hochwertige Fragen, die 350 Sätze abdecken (z.B. Satz von Taylor, Satz von Lagrange, Huffman-Codierung, Quantensatz [Quantum Theorem], Elastizitätssatz [Elasticity Theorem] usw.) aus den Bereichen Mathematik, Physik, Elektrotechnik & Computerwissenschaft sowie Finanzwesen. Wir evaluieren ein breites Spektrum von 16 großen Sprach- und Code-Modellen mit verschiedenen Prompting-Strategien wie Chain-of-Thoughts und Program-of-Thoughts. Wir stellten fest, dass GPT-4 bei der Lösung dieser Aufgaben uneinholbar ist und mit Program-of-Thoughts-Prompting eine Genauigkeit von 51 % erreicht. Alle existierenden Open-Source-Modelle liegen unter 15 % und übertreffen kaum das Zufallsgutachten-Level (random-guess baseline). Angesichts der Vielfalt und des umfassenden Themenspektrums von TheoremQA glauben wir, dass es als bessere Referenz verwendet werden kann, um die Fähigkeiten großer Sprachmodelle bei der Lösung anspruchsvoller wissenschaftlicher Probleme zu bewerten. Die Daten und das Code sind auf https://github.com/wenhuchen/TheoremQA veröffentlicht.