HyperAIHyperAI

Command Palette

Search for a command to run...

Wie vernünftig sind Alltags-Reasoning-Aufgaben: Eine Fallstudie zum Winograd-Schema-Challenge und SWAG

Paul Trichelair; Ali Emami; Adam Trischler; Kaheer Suleman; Jackie Chi Kit Cheung

Zusammenfassung

Neuere Studien haben den Stand der Technik bei Benchmarks für alltägliche Schlussfolgerungen (Common-Sense Reasoning, CSR) wie der Winograd-Schema-Challenge (WSC) und SWAG erheblich verbessert. In dieser Arbeit stellen wir die Frage, ob die verbesserte Leistung bei diesen Benchmarks echte Fortschritte auf dem Weg zu Systemen mit Common-Sense-Fähigkeiten darstellt. Wir führen Fallstudien an beiden Benchmarks durch und entwickeln Protokolle, die die Ergebnisse früherer Arbeiten durch die Analyse von Bedrohungen für die Gültigkeit früherer Versuchsdesigns klären und qualifizieren. Unsere Protokolle berücksichtigen mehrere Eigenschaften, die in Common-Sense-Benchmarks häufig vorkommen, einschließlich Größenbegrenzungen, struktureller Regularitäten und variabler Instanzschwierigkeiten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wie vernünftig sind Alltags-Reasoning-Aufgaben: Eine Fallstudie zum Winograd-Schema-Challenge und SWAG | Paper | HyperAI