HyperAIHyperAI
vor 17 Tagen

HybridQA: Ein Datensatz zum mehrschrittigen Fragenbeantworten über tabellarische und textuelle Daten

Wenhu Chen, Hanwen Zha, Zhiyu Chen, Wenhan Xiong, Hong Wang, William Wang
HybridQA: Ein Datensatz zum mehrschrittigen Fragenbeantworten über tabellarische und textuelle Daten
Abstract

Bisherige Frage-Antwort-Datensätze konzentrieren sich auf die Behandlung homogener Informationen und basieren entweder ausschließlich auf Text oder allein auf Wissensbasen (KB)/Tabelleninformationen. Da menschliches Wissen jedoch über heterogene Informationsformen verteilt ist, kann die Nutzung ausschließlich homogener Informationen zu erheblichen Abdeckungsproblemen führen. Um diese Lücke zu schließen, präsentieren wir HybridQA (https://github.com/wenhuchen/HybridQA), einen neuen, großskaligen Frage-Antwort-Datensatz, der Schlussfolgerungen auf Basis heterogener Informationen erfordert. Jede Frage ist mit einer Wikipedia-Tabelle sowie mehreren freiformatigen Korpora verknüpft, die die in der Tabelle enthaltenen Entitäten referenzieren. Die Fragen sind so entworfen, dass sowohl tabellarische als auch textuelle Informationen aggregiert werden müssen; die Abwesenheit einer dieser Formen macht die Frage unantwortbar. Wir testen drei verschiedene Modelle: 1) ein ausschließlich tabellenbasiertes Modell, 2) ein ausschließlich textbasiertes Modell und 3) ein hybrides Modell, das heterogene Informationen kombiniert, um die Antwort zu finden. Die experimentellen Ergebnisse zeigen, dass die EM-Scores der beiden Baseline-Modelle unter 20 % liegen, während das hybride Modell einen EM-Wert von über 40 % erreicht. Dieser Unterschied unterstreicht die Notwendigkeit, heterogene Informationen in HybridQA zu integrieren. Dennoch liegt das Ergebnis des hybriden Modells deutlich hinter der menschlichen Leistung zurück. HybridQA eignet sich somit als herausfordernder Benchmark zur Untersuchung von Frage-Antwort-Systemen im Kontext heterogener Informationen.

HybridQA: Ein Datensatz zum mehrschrittigen Fragenbeantworten über tabellarische und textuelle Daten | Neueste Forschungsarbeiten | HyperAI