SWAG: Ein großes adversariales Datensatz für begründete Alltagsinferenz

Gegeben eine teilweise Beschreibung wie „sie hob die Haube des Autos an“, können Menschen die Situation analysieren und voraussagen, was als Nächstes passieren könnte („dann untersuchte sie den Motor“). In dieser Arbeit führen wir die Aufgabe der fundierten Alltagsinferenz ein, die natürlichsprachliche Inferenz und Alltagsvernunft vereint.Wir stellen SWAG vor, einen neuen Datensatz mit 113.000 Multiple-Choice-Fragen zu einer breiten Palette von fundierten Situationen. Um sich den wiederkehrenden Herausforderungen der Annotation-Artefakte und menschlichen Verzerrungen in vielen bestehenden Datensätzen zu stellen, schlagen wir Adversariales Filtern (AF) vor, ein neues Verfahren, das durch iteratives Training eines Ensembles stilistischer Klassifizierer einen entverzerrten Datensatz erstellt und diese zur Datenfilterung verwendet. Um das intensive adversariale Filtern zu kompensieren, nutzen wir state-of-the-art Sprachmodelle, um eine große Vielfalt potentieller Gegenfaktoren massiv zu übersamplen. Empirische Ergebnisse zeigen, dass Menschen die resultierenden Inferenzprobleme mit hoher Genauigkeit lösen können (88 %), während verschiedene wettbewerbsfähige Modelle bei unserer Aufgabe Schwierigkeiten haben. Wir liefern eine umfassende Analyse, die erhebliche Chancen für zukünftige Forschung aufzeigt.