TabSQLify: Verbesserung der Schlussfolgerungsfähigkeiten von LLMs durch Tabellendekomposition

Tabellenreasoning ist eine anspruchsvolle Aufgabe, die sowohl das Verständnis natürlicher Sprachfragen als auch strukturierter Tabellendaten erfordert. Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten im Bereich der natürlichen Sprachverarbeitung und -generierung gezeigt, stoßen jedoch aufgrund ihrer begrenzten Eingabespanne oft an ihre Grenzen, wenn es um große Tabellen geht. In diesem Paper stellen wir TabSQLify vor, eine neuartige Methode, die die Text-zu-SQL-Generierung nutzt, um Tabellen in kleinere, relevante Teiltabellen zu zerlegen, die nur die für die Beantwortung von Fragen oder die Überprüfung von Aussagen essentiellen Informationen enthalten, bevor die Reasoning-Aufgabe durchgeführt wird. In einer umfassenden Evaluation auf vier anspruchsvollen Datensätzen zeigt unsere Methode vergleichbare oder überlegene Leistung im Vergleich zu etablierten Ansätzen, die als Eingabe die vollständigen Tabellen verwenden. Darüber hinaus kann unsere Methode die Länge des Eingabekontexts erheblich reduzieren, wodurch sie skalierbarer und effizienter für großflächige Anwendungen im Bereich des Tabellenreasonings wird. Unser Ansatz erzielt bemerkenswerte Ergebnisse auf dem WikiTQ-Benchmark mit einer Genauigkeit von 64,7 %. Zudem erreicht er auf dem TabFact-Benchmark eine hohe Genauigkeit von 79,5 %, was die Leistung anderer auf LLMs basierender Baseline-Modelle wie gpt-3.5-turbo (ChatGPT) übertrifft. TabSQLify kann die Tabellengröße signifikant verkleinern und damit die Rechenlast für LLMs bei der Verarbeitung großer Tabellen erheblich verringern, ohne die Leistung zu beeinträchtigen.