HyperAIHyperAI

Command Palette

Search for a command to run...

Generierung von Daten zur Minderung von spuriösen Korrelationen in natürlichsprachlichen Schlussfolgerungsdatasets

Yuxiang Wu Matt Gardner Pontus Stenetorp Pradeep Dasigi

Zusammenfassung

Natürliche Sprachverarbeitungsmodelle nutzen oft spurious Korrelationen zwischen aufgabenunabhängigen Merkmalen und Etiketten in Datensätzen aus, um innerhalb der Verteilungen, auf denen sie trainiert wurden, gut zu performen, jedoch nicht auf unterschiedliche Aufgabenverteilungen zu generalisieren. Wir schlagen vor, dieses Problem anzugehen, indem wir eine verfälschungsfreie Version eines Datensatzes generieren, die dann verwendet werden kann, um ein verfälschungsfreies, standardmäßig verfügbares Modell zu trainieren, indem lediglich die Trainingsdaten ersetzt werden. Unser Ansatz besteht aus zwei Komponenten: 1) einem Verfahren zur Schulung von Datengeneratoren, die hochwertige, etikettenkonsistente Datensamples erzeugen; und 2) einem Filtermechanismus zur Entfernung von Datenelementen, die zu spurious Korrelationen beitragen, gemessen anhand von Z-Statistiken. Wir erzeugen verfälschungsfreie Versionen der SNLI- und MNLI-Datensätze und evaluieren auf einer umfangreichen Reihe verfälschungsfreier, aus der Verteilung stammender sowie adversarialer Testsets. Die Ergebnisse zeigen, dass Modelle, die auf unseren verfälschungsfreien Datensätzen trainiert wurden, in allen Testsettings besser generalisieren als solche, die auf den ursprünglichen Datensätzen trainiert wurden. Auf der Mehrheit der Datensätze übertrifft unsere Methode die bisherigen state-of-the-art-Debiasing-Strategien oder verhält sich zumindest vergleichbar. Bei Kombination mit einer orthogonalen Technik, der Product-of-Experts-Methode, verbessert sich die Leistung weiterhin und übertrifft die bisher besten Ergebnisse für SNLI-hard und MNLI-hard.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp