CODAH: Ein von Gegnern erstelltes Frage-Antwort-Datensatz für Alltagswissen

Alltagslogisches Schließen ist eine entscheidende Fähigkeit der Künstlichen Intelligenz, aber es ist schwierig, anspruchsvolle Datensätze zu erstellen, die den Alltagssinn testen. Neuere neuronale Fragebeantwortungssysteme, die auf großen vortrainierten Sprachmodellen basieren, haben bereits nahezu menschliche Leistung auf Benchmarks für alltagslogisches Wissen erzielt. Diese Systeme besitzen jedoch nicht den menschlichen Alltagssinn, sondern können die Limitationen der Datensätze ausnutzen, um menschliche Punktzahlen zu erreichen.Wir stellen den CODAH-Datensatz vor, einen widerspenstig konstruierten Evaluationsdatensatz zur Prüfung des Alltagssinns. CODAH bildet eine anspruchsvolle Erweiterung des kürzlich vorgeschlagenen SWAG-Datensatzes, der alltagslogisches Wissen durch Lückentextfragen prüft, die Situationen beschreiben, die in Videos beobachtet wurden. Um einen schwierigeren Datensatz zu erzeugen, führen wir ein neues Verfahren für die Fragestellung ein, bei dem Mitarbeiter Fragen erstellen sollen, die darauf abzielen, Schwächen der aktuellen neuronalen Fragebeantwortungssysteme anzusprechen. Die Mitarbeiter werden belohnt, wenn ihre Einreichungen von Modellen sowohl vor als auch nach dem Feintuning (im Kreuzvalidierung) nicht korrekt beantwortet werden können. Wir erstellen 2.800 Fragen durch dieses Verfahren und evaluieren die Leistung mehrerer state-of-the-art-Fragebeantwortungssysteme auf unserem Datensatz. Wir beobachten einen signifikanten Leistungsunterschied zwischen der menschlichen Leistung von 95,3 % und der besten Baseline-Genauigkeit von 67,5 % durch das BERT-Large-Modell.