Aus dem Scheitern lernen: Das Training eines unverzerrten Klassifikators aus einem verzerrten Klassifikator

Neuronale Netze lernen oft Vorhersagen zu treffen, die sich stark auf zufällige Korrelationen im Datensatz stützen, was das Modell verfälscht. Während frühere Arbeiten dieses Problem durch die Verwendung expliziter Kennzeichnung der zufällig korrelierten Attribute oder unter der Annahme eines bestimmten Bias-Typs angehen, nutzen wir stattdessen eine billigere, aber generische Form menschlichen Wissens, die sich auf verschiedene Bias-Typen anwenden lässt. Zunächst beobachten wir, dass neuronale Netze nur dann lernen, sich auf die zufällige Korrelation zu stützen, wenn sie "einfacher" zu erlernen ist als das gewünschte Wissen, und dass diese Abhängigkeit besonders während der frühen Trainingsphase ausgeprägt ist. Auf Basis dieser Beobachtungen schlagen wir ein fehlerbasiertes Entbiasierungsschema vor, indem wir ein Paar neuronaler Netze gleichzeitig trainieren. Unser Hauptansatz hat zwei Aspekte: (a) Wir trainieren absichtlich das erste Netzwerk so, dass es verfälscht wird, indem wir seine "Vorurteile" wiederholt verstärken, und (b) wir entbiasieren das Training des zweiten Netzwerks, indem wir uns auf Stichproben konzentrieren, die gegen die Vorurteile des verfälschten Netzwerks in (a) verstoßen. Umfangreiche Experimente zeigen, dass unsere Methode das Training des Netzwerks gegen verschiedene Bias-Typen in synthetischen und realen Datensätzen erheblich verbessert. Überraschenderweise übertrifft unser Framework gelegentlich sogar Entbiasierungsverfahren, die eine explizite Überwachung der zufällig korrelierten Attribute erfordern.