HyperAIHyperAI
vor 2 Monaten

Wie vernünftig sind Alltags-Reasoning-Aufgaben: Eine Fallstudie zum Winograd-Schema-Challenge und SWAG

Paul Trichelair; Ali Emami; Adam Trischler; Kaheer Suleman; Jackie Chi Kit Cheung
Wie vernünftig sind Alltags-Reasoning-Aufgaben: Eine Fallstudie zum Winograd-Schema-Challenge und SWAG
Abstract

Neuere Studien haben den Stand der Technik bei Benchmarks für alltägliche Schlussfolgerungen (Common-Sense Reasoning, CSR) wie der Winograd-Schema-Challenge (WSC) und SWAG erheblich verbessert. In dieser Arbeit stellen wir die Frage, ob die verbesserte Leistung bei diesen Benchmarks echte Fortschritte auf dem Weg zu Systemen mit Common-Sense-Fähigkeiten darstellt. Wir führen Fallstudien an beiden Benchmarks durch und entwickeln Protokolle, die die Ergebnisse früherer Arbeiten durch die Analyse von Bedrohungen für die Gültigkeit früherer Versuchsdesigns klären und qualifizieren. Unsere Protokolle berücksichtigen mehrere Eigenschaften, die in Common-Sense-Benchmarks häufig vorkommen, einschließlich Größenbegrenzungen, struktureller Regularitäten und variabler Instanzschwierigkeiten.

Wie vernünftig sind Alltags-Reasoning-Aufgaben: Eine Fallstudie zum Winograd-Schema-Challenge und SWAG | Neueste Forschungsarbeiten | HyperAI