Offene Fragebeantwortung über Tabellen und Text

Bei der offenen Frage-Antwort-Task (Open QA) wird die Antwort auf eine Frage durch Abrufen und anschließende Analyse von Dokumenten generiert, die möglicherweise die Antwort enthalten. Die meisten Systeme für offene QA haben bisher ausschließlich Informationen aus unstrukturiertem Text abgerufen. In dieser Arbeit betrachten wir erstmals die offene QA sowohl über tabellarische als auch über textuelle Daten und stellen ein neues, großskaliges Datenset namens Open Table-and-Text Question Answering (OTT-QA) vor, um die Leistungsfähigkeit auf dieser Aufgabe zu bewerten. Die meisten Fragen in OTT-QA erfordern eine mehrschrittige Schlussfolgerung über tabellarische Daten und unstrukturierten Text, wobei die zur Beantwortung erforderlichen Hinweise unterschiedlich über diese beiden Datentypen verteilt sein können, was die Gewinnung von Beweisen besonders herausfordernd macht – unser Basismodell, das einen iterativen Retriever und einen BERT-basierten Reader nutzt, erreicht eine Exact-Match-Score unter 10 %. Anschließend schlagen wir zwei neue Techniken vor, um die Herausforderung der Beweisabfrage und Aggregation für OTT-QA zu bewältigen. Die erste Technik besteht darin, eine „Early Fusion“-Strategie zu verwenden, um mehrere hochrelevante tabellarische und textuelle Einheiten zu einer zusammengeführten Block-Struktur zu gruppieren, die dem Retriever zusätzlichen Kontext bietet. Die zweite Technik nutzt einen Cross-Block-Reader, der die Wechselwirkungen zwischen mehreren abgerufenen Beweisen mittels global-lokaler sparser Aufmerksamkeit modelliert. Die Kombination beider Techniken führt zu einer signifikanten Verbesserung der Leistung, wobei der Score auf über 27 % steigt.