Nehmen Sie nicht den einfachen Weg: Ensemble-basierte Methoden zur Vermeidung bekannter Datensatz-Biases

Zustandsbestimmende Modelle nutzen häufig oberflächliche Muster in den Daten, die sich nicht gut auf außerhalb des Domänenbereichs liegende oder adversarielle Szenarien verallgemeinern lassen. Beispielsweise lernen Textentailment-Modelle oft, dass bestimmte Schlüsselwörter implizieren, dass eine Aussage folgt, unabhängig vom Kontext, und Visual Question Answering-Modelle lernen, prototypische Antworten vorherzusagen, ohne die Beweise im Bild zu berücksichtigen. In diesem Artikel zeigen wir, dass wir ein Modell robuster gegenüber Domänenverschiebungen machen können, wenn wir vorherige Kenntnisse über solche Verzerrungen besitzen. Unsere Methode besteht aus zwei Phasen: Wir (1) trainieren ein naives Modell, das ausschließlich auf Datensatzverzerrungen basierende Vorhersagen trifft, und (2) trainieren ein robusteres Modell gemeinsam mit diesem naiven Modell als Ensemble, um es zu ermutigen, sich auf andere, wahrscheinlich besser verallgemeinerbare Muster in den Daten zu konzentrieren. Experimente an fünf Datensätzen mit außerhalb der Domäne liegenden Testmengen zeigen eine signifikant verbesserte Robustheit in allen Szenarien, einschließlich eines 12-Punkte-Gewinns auf einem Visual Question Answering-Datensatz mit veränderlichen A-priori-Annahmen und eines 9-Punkte-Gewinns auf einem adversariellen Frage-Antwort-Testset.