OmniTab: Vortraining mit natürlichen und synthetischen Daten für Few-Shot Tabellenbasierte Fragebeantwortung

Die Informationen in Tabellen können eine wichtige Ergänzung zum Text darstellen und machen tabellenbasierte Frage-Antwort-Systeme (QA) von großem Wert. Die inhärente Komplexität der Verarbeitung von Tabellen fügt oft zusätzliche Belastungen sowohl bei der Modellgestaltung als auch bei der Datenaufbereitung hinzu. In dieser Arbeit streben wir an, ein einfaches tabellenbasiertes QA-Modell mit minimalem Annotationseffort zu entwickeln. Angeregt durch die Tatsache, dass tabellenbasierte QA sowohl eine Ausrichtung zwischen Fragen und Tabellen als auch die Fähigkeit erfordert, komplizierte Schlussfolgerungen über mehrere Tabellenelemente zu ziehen, schlagen wir einen omnivoren Vortrainingsansatz vor, der sowohl natürliche als auch synthetische Daten verarbeitet, um den Modellen diese jeweiligen Fähigkeiten zu verleihen. Insbesondere nutzen wir gegebene frei verfügbare Tabellen und koppeln sie durch Retrieval mit relevanten natürlichen Sätzen für maskenbasiertes Vortraining. Zudem synthetisieren wir NL-Fragen (Natural Language), indem wir SQL-Anfragen (Structured Query Language), die aus den Tabellen abgetastet wurden, in NL-Fragen umwandeln und diese für das Vortraining mit einem QA-Verlust (Question Answering Loss) verwenden. Wir führen umfangreiche Experimente sowohl in Few-Shot- als auch in Full-Einstellungen durch, und die Ergebnisse zeigen deutlich die Überlegenheit unseres Modells OmniTab. Der beste Multitasking-Ansatz erreicht absolute Gewinne von 16,2 % und 2,7 % in den 128-Shot- und Full-Einstellungen beziehungsweise und etabliert damit einen neuen Stand der Technik auf WikiTableQuestions. Detaillierte Abstraktionen und Analysen offenbaren unterschiedliche Charakteristika natürlicher und synthetischer Daten und werfen Licht auf zukünftige Richtungen im omnivoren Vortraining. Der Quellcode, die Vortrainingsdaten und die vortrainierten Modelle sind unter https://github.com/jzbjyb/OmniTab verfügbar.