HyperAIHyperAI
vor 2 Monaten

Kann eine Rüstung Elektrizität leiten? Ein neuer Datensatz für offenes Buch-Fragebeantworten

Todor Mihaylov; Peter Clark; Tushar Khot; Ashish Sabharwal
Kann eine Rüstung Elektrizität leiten? Ein neuer Datensatz für offenes Buch-Fragebeantworten
Abstract

Wir stellen einen neuen Art von Frage-Antwort-Datensatz vor, den OpenBookQA, der auf offenen Büchern basiert und zur Bewertung des menschlichen Verständnisses eines Themas entwickelt wurde. Das offene Buch, das zu unseren Fragen gehört, umfasst eine Sammlung von 1329 wissenschaftlichen Tatsachen auf Grundschulniveau. Etwa 6000 Fragen testen das Verständnis dieser Tatsachen und ihre Anwendung auf neue Situationen. Dies erfordert die Kombination einer offenen Buchtatsache (z.B., Metalle leiten Elektrizität) mit umfassendem allgemeinem Wissen (z.B., eine Rüstung besteht aus Metall), das aus anderen Quellen gewonnen wird. Während bestehende QA-Datensätze über Dokumente oder Wissensbasen im Allgemeinen selbständig sind und sich auf linguistisches Verständnis konzentrieren, untersucht OpenBookQA ein tieferes Verständnis sowohl des Themas --- im Kontext allgemeinen Wissens --- als auch der Sprache, in der es formuliert ist. Die menschliche Leistung bei OpenBookQA liegt nahe bei 92 %, jedoch zeigen viele state-of-the-art vortrainierte QA-Methoden überraschend schlechte Ergebnisse, die sogar schlechter sind als einige einfache neuronale Baseline-Modelle, die wir entwickelt haben. Unsere Orakel-Experimente, die darauf abzielen, den Wissensretrieval-Halsabschnitt zu umgehen, verdeutlichen den Wert sowohl des offenen Buchs als auch zusätzlicher Fakten. Wir stellen es als Herausforderung dar, das Retrieval-Problem in diesem Multi-Hop-Szenario zu lösen und den großen Abstand zur menschlichen Leistung zu schließen.