WinoGrande: Eine adversäre Winograd-Schema-Herausforderung im großen Maßstab

Die Winograd-Schema-Challenge (WSC) (Levesque, Davis und Morgenstern 2011), ein Benchmark für alltägliche Schlussfolgerungen, ist eine Sammlung von 273 von Experten erstellten Pronomenauflösungsproblemen, die ursprünglich so konzipiert wurden, dass sie für statistische Modelle unlösbar sind, die auf selektionspräferenzen oder Wortassoziationen basieren. Dennoch haben kürzliche Fortschritte in neuronalen Sprachmodellen bereits eine Genauigkeit von etwa 90 % bei Varianten der WSC erreicht. Dies wirft die wichtige Frage auf, ob diese Modelle tatsächlich robuste Fähigkeiten im Bereich des alltäglichen Verstandes erworben haben oder ob sie sich auf irreführende Verzerrungen in den Datensätzen stützen, die zu einer Überschätzung der wahren Fähigkeiten des maschinellen alltäglichen Verstandes führen. Um diese Frage zu untersuchen, stellen wir WinoGrande vor, einen groß angelegten Datensatz mit 44.000 Problemen, der sich an der ursprünglichen WSC-Gestaltung orientiert, aber angepasst wurde, um sowohl das Ausmaß als auch die Schwierigkeit des Datensatzes zu verbessern. Die wesentlichen Schritte der Erstellung des Datensatzes bestehen aus (1) einem sorgfältig gestalteten Crowdsourcing-Prozess, gefolgt von (2) einer systematischen Reduktion von Verzerrungen durch den neuen AfLite-Algorithmus, der menschlich erkennbare Wortassoziationen auf maschinell erkennbare Einbettungsassoziationen verallgemeinert. Die besten Methoden des aktuellen Standes erreichen bei WinoGrande eine Genauigkeit von 59,4-79,1 %, was je nach zulässiger Menge an Trainingsdaten 15-35 % unterhalb der menschlichen Leistung von 94,0 % liegt. Darüber hinaus legen wir neue Referenzwerte für fünf verwandte Benchmarks fest – WSC (90,1 %), DPR (93,1 %), COPA (90,6 %), KnowRef (85,6 %) und Winogender (97,1 %). Diese Ergebnisse haben doppelte Implikationen: Einerseits zeigen sie die Effektivität von WinoGrande als Ressource für Transferlearning. Andererseits wecken sie Bedenken bezüglich einer möglichen Überschätzung der wahren Fähigkeiten des maschinellen alltäglichen Verstandes in allen diesen Benchmarks. Wir betonen die Bedeutung der Reduktion algorithmischer Verzerrungen in existierenden und zukünftigen Benchmarks zur Minderung solcher Überschätzungen.