HyperAIHyperAI

Command Palette

Search for a command to run...

Kann eine Rüstung Elektrizität leiten? Ein neuer Datensatz für offenes Buch-Fragebeantworten

Todor Mihaylov; Peter Clark; Tushar Khot; Ashish Sabharwal

Zusammenfassung

Wir stellen einen neuen Art von Frage-Antwort-Datensatz vor, den OpenBookQA, der auf offenen Büchern basiert und zur Bewertung des menschlichen Verständnisses eines Themas entwickelt wurde. Das offene Buch, das zu unseren Fragen gehört, umfasst eine Sammlung von 1329 wissenschaftlichen Tatsachen auf Grundschulniveau. Etwa 6000 Fragen testen das Verständnis dieser Tatsachen und ihre Anwendung auf neue Situationen. Dies erfordert die Kombination einer offenen Buchtatsache (z.B., Metalle leiten Elektrizität) mit umfassendem allgemeinem Wissen (z.B., eine Rüstung besteht aus Metall), das aus anderen Quellen gewonnen wird. Während bestehende QA-Datensätze über Dokumente oder Wissensbasen im Allgemeinen selbständig sind und sich auf linguistisches Verständnis konzentrieren, untersucht OpenBookQA ein tieferes Verständnis sowohl des Themas --- im Kontext allgemeinen Wissens --- als auch der Sprache, in der es formuliert ist. Die menschliche Leistung bei OpenBookQA liegt nahe bei 92 %, jedoch zeigen viele state-of-the-art vortrainierte QA-Methoden überraschend schlechte Ergebnisse, die sogar schlechter sind als einige einfache neuronale Baseline-Modelle, die wir entwickelt haben. Unsere Orakel-Experimente, die darauf abzielen, den Wissensretrieval-Halsabschnitt zu umgehen, verdeutlichen den Wert sowohl des offenen Buchs als auch zusätzlicher Fakten. Wir stellen es als Herausforderung dar, das Retrieval-Problem in diesem Multi-Hop-Szenario zu lösen und den großen Abstand zur menschlichen Leistung zu schließen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp