HyperAIHyperAI

Command Palette

Search for a command to run...

134.000 Simulationen: Die besten Regularizer

Ein umfassendes Forschungsprojekt mit 134.400 Simulationen auf Basis echter Produktionsmodelle von Instacart hat ermittelt, welcher Regularisierer in welchen Situationen tatsächlich am besten funktioniert. Die Studie der Autoren Ahsaas Bajaj und Benjamin S. Knight belegt, dass die Wahl zwischen Ridge, Lasso und ElasticNet nicht intuitiv oder willkürlich erfolgen sollte, sondern auf zwei vorab berechenbaren Diagnosewerten basiert: dem Verhältnis von Stichprobengröße zu Merkmalen (n/p) sowie der Konditionszahl der Daten (κ). Für den reinen Vorhersagezweck, gemessen am Test-RMSE, sind Ridge, Lasso und ElasticNet fast vollständig austauschbar. Die Unterschiede im Fehler sind vernachlässigbar und hängen weniger vom gewählten Algorithmus als vielmehr von der verfügbaren Datenmenge ab. Daher ist RidgeCV aus Effizienzgründen die erste Wahl. Es bietet eine geschlossene Lösungsformel, ist rechnerisch deutlich schneller als Lasso und insbesondere erheblich performanter als ElasticNet, das durch seine komplexere Gittersuche oft bis zu fünfmal länger benötigt, ohne nennenswerte Genauigkeitsvorteile zu bieten. Anders stellt sich die Lage bei der Variablenselektion dar, also der Aufgabe, die tatsächlich relevanten Merkmale zu identifizieren. Hier zeigt sich ein eindeutiges Muster: Bei hoher Multikollinearität, also wenn Merkmale stark korreliert sind (Konditionszahl κ > 10.000), sollte Lasso strikt vermieden werden. In diesem Szenario wählt Lasso willkürlich ein Merkmal aus einer Gruppe von korrelierten Variablen aus und verwirft die anderen, was zu einem massiven Verlust an Recall führt. ElasticNet hingegen behält korrelierte Merkmale gemeinsam bei und erzielt dabei eine fünfmal höhere Recall-Rate. Selbst bei geringerer Multikollinearität bleibt ElasticNet aufgrund seiner robusteren Performance bei unterschiedlichen Signal-Rausch-Verhältnissen die sicherere Standardwahl. Ridge erzielt zwar oft hohe Scores, da es alle Merkmale behält, liefert aber keine echte Sparsität. Bei der Schätzung von Koeffizientenwerten, was für Interpretierbarkeit oder kausale Schlussfolgerungen wichtig ist, hängt die beste Methode erneut von der Konditionszahl ab. Bei hoher Multikollinearität dominiert ElasticNet bei der Fehlerreduktion gegenüber den anderen Verfahren. Bei gut konditionierten Daten hängt die Entscheidung von der spärlichen Struktur des zugrundeliegenden Modells ab. Die Studie warnt zudem davor, die sogenannte Post-Lasso-OLS-Methode zu verwenden, da diese im Vergleich zu standardmäßigen Regularisierungsmethoden konsistent höhere Fehler aufweist. Eine zentrale Erkenntnis der Studie ist, dass die Stichprobengröße den entscheidenden Faktor darstellt. Wenn das Verhältnis von n/p größer als 78 ist, konvergieren alle Methoden und ihre Unterschiede verschwinden. In diesem Fall ist die reine Effizienz von RidgeCV ausschlaggebend. In schwierigeren Regimen, wo weniger Daten pro Merkmal vorliegen, dient die vom LassoCV gewählte Regularisierungsstärke α als kostenloser Indikator für das Signal-Rausch-Verhältnis: Ein hoher α-Wert deutet auf schwaches Signal hin. Die praktischen Empfehlungen lassen sich wie folgt zusammenfassen: Beginnen Sie immer mit der Berechnung von n/p und κ. Ist das Verhältnis groß, nutzen Sie RidgeCV. Ist es klein und die Multikollinearität hoch, wählen Sie zwingend ElasticNetCV. Nur bei niedriger Multikollinearität und starkem Signal kann Lasso in Betracht gezogen werden, wobei auch hier ElasticNet selten die falsche Wahl ist. Der größte Hebel für die Modellgüte liegt jedoch weniger im Feintuning des Algorithmus als in der Vergrößerung des Trainingsdatensatzes.

Verwandte Links

134.000 Simulationen: Die besten Regularizer | Aktuelle Beiträge | HyperAI