HyperAIHyperAI
vor 15 Tagen

Zurück zum Ausgangspunkt: Artefakt-Detektion, Training und Commonsense-Entkoppelung im Winograd-Schema

Yanai Elazar, Hongming Zhang, Yoav Goldberg, Dan Roth
Zurück zum Ausgangspunkt: Artefakt-Detektion, Training und Commonsense-Entkoppelung im Winograd-Schema
Abstract

Der Winograd-Schema (WS) wurde als Test vorgeschlagen, um die Alltagswissensfähigkeit von Modellen zu messen. In jüngster Zeit haben Ansätze, die auf vortrainierten Sprachmodellen basieren, die Leistung auf bestimmten WS-Benchmarks erheblich verbessert, doch der Grund für diese Verbesserung ist weiterhin unklar. In diesem Artikel wird behauptet, dass die scheinbare Fortschrittsentwicklung im WS-Test möglicherweise nicht unbedingt auf eine Verbesserung des Alltagswissensschlusses zurückzuführen ist. Um diese These zu stützen, zeigen wir zunächst, dass die derzeitige Evaluationsmethode für WS suboptimal ist, und schlagen eine Modifikation vor, die auf der Verwendung von Zwillingssätzen zur Bewertung basiert. Zudem stellen wir zwei neue Baselines vor, die auf die Existenz von Artefakten in WS-Benchmarks hinweisen. Anschließend entwickeln wir eine Methode zur Evaluierung von WS-ähnlichen Sätzen in einer Zero-Shot-Situation, um die durch das Vortrainieren erworbenen Fähigkeiten im Bereich des Alltagswissensschlusses zu berücksichtigen. Dabei stellen wir fest, dass gängige Sprachmodelle in dieser strengeren Evaluierung zufällig abschneiden. Wir schließen daraus, dass die beobachtete Verbesserung vor allem auf die Verwendung von Supervision beim Training von WS-Modellen zurückzuführen ist, was unwahrscheinlich ist, um alle erforderlichen Fähigkeiten und Kenntnisse im Bereich des Alltagswissensschlusses zu unterstützen.

Zurück zum Ausgangspunkt: Artefakt-Detektion, Training und Commonsense-Entkoppelung im Winograd-Schema | Neueste Forschungsarbeiten | HyperAI