Generierung von Daten zur Minderung von spuriösen Korrelationen in natürlichsprachlichen Schlussfolgerungsdatasets

Natürliche Sprachverarbeitungsmodelle nutzen oft spurious Korrelationen zwischen aufgabenunabhängigen Merkmalen und Etiketten in Datensätzen aus, um innerhalb der Verteilungen, auf denen sie trainiert wurden, gut zu performen, jedoch nicht auf unterschiedliche Aufgabenverteilungen zu generalisieren. Wir schlagen vor, dieses Problem anzugehen, indem wir eine verfälschungsfreie Version eines Datensatzes generieren, die dann verwendet werden kann, um ein verfälschungsfreies, standardmäßig verfügbares Modell zu trainieren, indem lediglich die Trainingsdaten ersetzt werden. Unser Ansatz besteht aus zwei Komponenten: 1) einem Verfahren zur Schulung von Datengeneratoren, die hochwertige, etikettenkonsistente Datensamples erzeugen; und 2) einem Filtermechanismus zur Entfernung von Datenelementen, die zu spurious Korrelationen beitragen, gemessen anhand von Z-Statistiken. Wir erzeugen verfälschungsfreie Versionen der SNLI- und MNLI-Datensätze und evaluieren auf einer umfangreichen Reihe verfälschungsfreier, aus der Verteilung stammender sowie adversarialer Testsets. Die Ergebnisse zeigen, dass Modelle, die auf unseren verfälschungsfreien Datensätzen trainiert wurden, in allen Testsettings besser generalisieren als solche, die auf den ursprünglichen Datensätzen trainiert wurden. Auf der Mehrheit der Datensätze übertrifft unsere Methode die bisherigen state-of-the-art-Debiasing-Strategien oder verhält sich zumindest vergleichbar. Bei Kombination mit einer orthogonalen Technik, der Product-of-Experts-Methode, verbessert sich die Leistung weiterhin und übertrifft die bisher besten Ergebnisse für SNLI-hard und MNLI-hard.