Tabellenstück: Ein Teile-und-Herrsche-Ansatz zur Auswahl von Teiltabellen bei der Tabellenfragebeantwortung

Die Anwendung von Sprachmodellen (LMs) auf Tabellen ist aufgrund der inhärenten strukturellen Unterschiede zwischen zweidimensionalen Tabellen und eindimensionalem Text, für den die LMs ursprünglich entwickelt wurden, herausfordernd. Darüber hinaus erschweren die oft in Selbst-Attention-Berechnungen festgelegten maximalen Tokenlängen das umfassende Verständnis des Kontexts, der sich über große Tabellen verteilt. Um diese Herausforderungen zu bewältigen, stellen wir PieTa (Piece of Table) vor, einen neuen Rahmen für fragebasierte Verarbeitung von Teiltabellen (QA). PieTa arbeitet durch einen iterativen Prozess, bei dem Tabellen in kleinere Fenster unterteilt werden, relevante Zellen innerhalb jedes Fensters mit Hilfe von LMs ausgewählt werden und diese Zellen dann zu einer Teiltabelle zusammengeführt werden. Dieser mehrschichtige Ansatz erfasst Abhängigkeiten über mehrere Zeilen und Spalten hinweg und vermeidet dabei die Einschränkungen, die durch lange Kontexteingaben entstehen. Als eine einfache iterative Algorithmus zur Vereinigung von Teiltabellen implementiert, zeigt PieTa eine verbesserte Leistung im Vergleich zu früheren Teiltabellen-basierten QA-Ansätzen.