PASTA: Tabelle-bewusste Faktverifikation durch Satz-Tabelle-Cloze-Vortraining

Die Faktprüfung hat in letzter Zeit viel Forschungsinteresse angezogen, insbesondere im Journalismus, Marketing und Politikgestaltung, da Falschinformationen und Desinformationen im Internet die Meinungen und Handlungen von Menschen beeinflussen können. Obwohl die Faktprüfung generell eine schwierige Aufgabe ist, können in vielen Fällen falsche Aussagen leicht widerlegt werden, indem man Analysen über Tabellen mit zuverlässigen Informationen durchführt. Daher ist die tabellenbasierte Faktprüfung kürzlich als ein wichtiges und wachsendes Forschungsfeld hervorgetreten. Dennoch sind Fortschritte begrenzt geblieben, aufgrund des Mangels an Datensätzen, die verwendet werden können, um Sprachmodelle (LMs) vorzutrainieren, sodass sie gängige Tabellenoperationen wie das Aggregieren einer Spalte oder das Vergleichen von Tupeln kennen. Um diese Lücke zu schließen, stellen wir in dieser Arbeit PASTA vor, einen neuen Stand-der-Kunst-Framework für tabellenbasierte Faktprüfung durch Vortraining mit synthetisierten Satz-Tabelle-Lückenfragen. Insbesondere entwerfen wir sechs Arten gängiger Satz-Tabelle-Lückenfragen-Aufgaben: Filtern (Filter), Aggregation (Aggregation), Superlativen (Superlative), Vergleichen (Comparative), Ordnungszahlen (Ordinal) und Einzigartigkeit (Unique). Basierend darauf synthetisieren wir einen großen Korpus aus 1,2 Millionen Satz-Tabelle-Paaren aus WikiTables. PASTA nutzt ein neues vortrainiertes Sprachmodell, DeBERTaV3, und führt ein weiteres Vortraining auf unserem Korpus durch. Unsere experimentellen Ergebnisse zeigen, dass PASTA neue Stand-der-Kunst-Leistungen bei zwei Benchmarks für tabellenbasierte Faktprüfung erzielt: TabFact und SEM-TAB-FACTS. Insbesondere bei der komplexen Testmenge von TabFact, die mehrere Operationen enthält, übertrifft PASTA den bisherigen Stand der Technik um 4,7 Punkte (85,6 % gegenüber 80,9 %). Der Leistungsunterschied zwischen PASTA und menschlicher Leistung bei der kleinen Testmenge von TabFact wurde auf nur noch 1,5 Punkte (90,6 % gegenüber 92,1 %) reduziert.