vor 17 Tagen

CABINET: Inhaltsrelevanzbasierte Rauschreduzierung für Tabellen-Fragebeantwortung

Sohan Patnaik, Heril Changwal, Milan Aggarwal, Sumit Bhatia, Yaman Kumar, Balaji Krishnamurthy

Abstract

Die Fähigkeit von Großsprachmodellen (Large Language Models, LLMs) zur Tabellenverstehensanalyse wurde umfassend durch die Aufgabe der Tabellenfragenbeantwortung (Question Answering, QA) untersucht. Typischerweise ist nur ein kleiner Teil einer gesamten Tabelle für die Beantwortung einer gegebenen Frage relevant. Die irrelevanten Teile wirken als Rauschen und liefern ablenkende Informationen, was aufgrund der Anfälligkeit von LLMs gegenüber Rauschen zu suboptimalen Leistungen führt. Um dies zu verringern, schlagen wir CABINET (Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering) vor – ein Framework, das es LLMs ermöglicht, sich auf relevante Tabellendaten zu konzentrieren, indem es überflüssige Informationen unterdrückt. CABINET besteht aus einem unsupervisierten Relevanz-Score (Unsupervised Relevance Scorer, URS), der differenziell gemeinsam mit dem QA-LLM trainiert wird und den Inhalt der Tabelle basierend auf seiner Relevanz zur Eingabefrage bewertet, bevor dieser dem Frage-Antwort-LLM (QA LLM) zugeführt wird. Um den Relevanz-Score weiter zu unterstützen, integriert CABINET ein schwach überwachtes Modul, das eine Parsingsatz generiert, der die Kriterien für relevante Zeilen und Spalten beschreibt und die Inhalte der entsprechenden Tabellenzellen hervorhebt. CABINET übertrifft erheblich verschiedene Tabellen-LLM-Baselines sowie GPT3-basierte In-Context-Lernmethoden, ist robuster gegenüber Rauschen, behält seine Überlegenheit auch bei Tabellen unterschiedlicher Größe bei und erreicht neue State-of-the-Art-Leistungen auf den Datensätzen WikiTQ, FeTaQA und WikiSQL. Wir stellen unseren Code und die Datensätze unter https://github.com/Sohanpatnaik106/CABINET_QA zur Verfügung.