Genauer und reuebewusster numerischer Problemlöser für tabellarische Fragebeantwortung

Die Fragebeantwortung auf freiformigen Tabellen (auch bekannt als TableQA) ist eine herausfordernde Aufgabe aufgrund der flexiblen Struktur und des komplexen Schemas von Tabellen. Neueste Studien verwenden große Sprachmodelle (LLMs) für diese Aufgabe, indem sie deren Fähigkeit nutzen, sowohl die Fragen zu verstehen als auch mit tabellarischen Daten umzugehen, die in der Regel in natürlicher Sprache gegeben sind und viele textuelle Felder enthalten. Obwohl dieser Ansatz vielversprechende Ergebnisse erzielt hat, ignoriert er die Herausforderungen, die durch numerische Werte verursacht werden, die in tabellarischen Daten häufig vorkommen. Dabei sind LLMs bekannt für ihre Schwierigkeiten bei solchen Werten. Unser Ziel ist es, dieses Problem anzugehen, und wir schlagen ein Modell namens TabLaP vor, das LLMs als Planer anstelle von Antwortgeneratoren verwendet. Dieser Ansatz nutzt die Fähigkeit der LLMs zur mehrstufigen Schlussfolgerung, während die tatsächlichen numerischen Berechnungen einem Python-Interpreter überlassen werden, um eine genaue Berechnung sicherzustellen. Angesichts der ungenauen Natur der LLMs versuchen wir zudem erstmals, das Vertrauenswürdigkeitsmaß der von TabLaP erzeugten Antworten zu quantifizieren, sodass Benutzer TabLaP bedauernswert-bewusst verwenden können. Experimentelle Ergebnisse auf zwei Benchmark-Datensätzen zeigen, dass TabLaP erheblich genauer ist als die bislang besten Modelle und die Antwortgenauigkeit um 5,7 % und 5,8 % verbessert, je nach Datensatz.