Verstehen von Tabellen mit vorab trainierten Modellen

Tabellen-Entailment, die binäre Klassifizierungsaufgabe, zu ermitteln, ob ein Satz durch den Inhalt einer Tabelle gestützt oder widerlegt wird, erfordert die Analyse von Sprache und Tabellenstruktur sowie numerische und diskrete Schlussfolgerungen. Obwohl es umfangreiche Arbeiten zum textuellen Entailment gibt, ist das Tabellen-Entailment weniger gut untersucht. Wir passen TAPAS (Herzig et al., 2020), ein auf Tabellen basierendes BERT-Modell, an, um Entailment zu erkennen. Inspiriert durch die Vorteile der Datenverstärkung, erstellen wir einen ausgewogenen Datensatz mit Millionen automatisch generierter Trainingsbeispiele, die in einem Zwischenschritt vor dem Feinjustieren gelernt werden. Diese neuen Daten sind nicht nur für das Tabellen-Entailment nützlich, sondern auch für SQA (Iyyer et al., 2017), eine sequenzielle Aufgabe zur Beantwortung von Fragen anhand von Tabellen. Um lange Beispiele als Eingabe für BERT-Modelle verwenden zu können, evaluieren wir Tabellenpruning-Techniken als Vorverarbeitungsschritt, um die Effizienz des Trainings und der Vorhersage erheblich zu verbessern, wobei der Genauigkeitsverlust moderat bleibt. Die verschiedenen Methoden setzen neue Standards im Bereich des Standes der Technik auf den TabFact (Chen et al., 2020) und SQA-Datensätzen.