HyperAIHyperAI

Command Palette

Search for a command to run...

Zurück zum Ausgangspunkt: Artefakt-Detektion, Training und Commonsense-Entkoppelung im Winograd-Schema

Yanai Elazar Hongming Zhang Yoav Goldberg Dan Roth

Zusammenfassung

Der Winograd-Schema (WS) wurde als Test vorgeschlagen, um die Alltagswissensfähigkeit von Modellen zu messen. In jüngster Zeit haben Ansätze, die auf vortrainierten Sprachmodellen basieren, die Leistung auf bestimmten WS-Benchmarks erheblich verbessert, doch der Grund für diese Verbesserung ist weiterhin unklar. In diesem Artikel wird behauptet, dass die scheinbare Fortschrittsentwicklung im WS-Test möglicherweise nicht unbedingt auf eine Verbesserung des Alltagswissensschlusses zurückzuführen ist. Um diese These zu stützen, zeigen wir zunächst, dass die derzeitige Evaluationsmethode für WS suboptimal ist, und schlagen eine Modifikation vor, die auf der Verwendung von Zwillingssätzen zur Bewertung basiert. Zudem stellen wir zwei neue Baselines vor, die auf die Existenz von Artefakten in WS-Benchmarks hinweisen. Anschließend entwickeln wir eine Methode zur Evaluierung von WS-ähnlichen Sätzen in einer Zero-Shot-Situation, um die durch das Vortrainieren erworbenen Fähigkeiten im Bereich des Alltagswissensschlusses zu berücksichtigen. Dabei stellen wir fest, dass gängige Sprachmodelle in dieser strengeren Evaluierung zufällig abschneiden. Wir schließen daraus, dass die beobachtete Verbesserung vor allem auf die Verwendung von Supervision beim Training von WS-Modellen zurückzuführen ist, was unwahrscheinlich ist, um alle erforderlichen Fähigkeiten und Kenntnisse im Bereich des Alltagswissensschlusses zu unterstützen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zurück zum Ausgangspunkt: Artefakt-Detektion, Training und Commonsense-Entkoppelung im Winograd-Schema | Paper | HyperAI