Wie vernünftig sind Alltags-Reasoning-Aufgaben: Eine Fallstudie zum Winograd-Schema-Challenge und SWAG

Neuere Studien haben den Stand der Technik bei Benchmarks für alltägliche Schlussfolgerungen (Common-Sense Reasoning, CSR) wie der Winograd-Schema-Challenge (WSC) und SWAG erheblich verbessert. In dieser Arbeit stellen wir die Frage, ob die verbesserte Leistung bei diesen Benchmarks echte Fortschritte auf dem Weg zu Systemen mit Common-Sense-Fähigkeiten darstellt. Wir führen Fallstudien an beiden Benchmarks durch und entwickeln Protokolle, die die Ergebnisse früherer Arbeiten durch die Analyse von Bedrohungen für die Gültigkeit früherer Versuchsdesigns klären und qualifizieren. Unsere Protokolle berücksichtigen mehrere Eigenschaften, die in Common-Sense-Benchmarks häufig vorkommen, einschließlich Größenbegrenzungen, struktureller Regularitäten und variabler Instanzschwierigkeiten.