Logistic Regression schlägt XGBoost bei kleinen Datensätzen
Ein jüngst durchgeführtes Machine-Learning-Experiment demonstriert eindrucksvoll, warum die Wahl des Modells strikt an den verfügbaren Daten und nicht an aktuellen Hypes ausgerichtet werden darf. Bei der Prognose von Spielergebnissen aus 358 internationalen Fußballwettkämpfen, darunter die Weltmeisterschaften 2010 bis 2022 sowie die Europameisterschaften 2020 und 2024, trat eine Reihe etablierter Algorithmen gegeneinander an. Die Vergleichsbasis umfasste Logistische Regression, Random Forest, K-Nearest Neighbors, ein neuronales Netz und XGBoost. Das Ziel war die Vorhersage der drei möglichen Ergebnisse: Heimsieg, Unentschieden oder Auswärtssieg. Die Ergebnisse widerlegen die generelle Annahme, dass gradientenboostende Verfahren automatisch überlegen sind. Die Logistische Regression erzielte mit einer Kreuzvalidierungs-Log-Loss von 1,001 das beste Ergebnis. Überraschend schnitt XGBoost am schlechtesten ab und erreichte einen Wert von 1,169, der unter dem Zufallsbaseline-Wert von ln(3) von etwa 1,099 lag. Zwar wies XGBoost eine scheinbar solide Trefferquote von 48 Prozent auf, doch die primäre Bewertungsmetrik Log-Loss bestraft verlässliche Fehlprognosen mit hoher Konfidenz deutlich härter als eine einfache Trefferquote. Das flexible Modell passte sich an Rauschen in den kleinen Datensätzen an, was zu übertriebenem Selbstvertrauen und schlechter Kalibrierung führte. Die technische Analyse lässt sich durch das Bias-Varianz-Dilemma erklären. Bei lediglich 358 Beobachtungen und drei zugrunde liegenden Merkmalen fehlt die statistische Masse, um tausende effektive Parameter in Ensemble-Modellen stabil zu schätzen. Die lineare Annahme der Logistischen Regression korrespondiert hingegen direkt mit der tatsächlichen, nahezu linearen Beziehung zwischen Teamstärkeunterschied und Gewinnwahrscheinlichkeit. Zudem fehlen den komplexeren Modellen die vielfachen Interaktionen zwischen Features, durch die sie eigentlich ihre Stärke ausspielen. Ein bewährter statistischer Richtwert sieht etwa zehn bis zwanzig Datenpunkte pro Parameter vor; dieses Verhältnis wurde bei den Baummodellen bei Weitem überschritten. Aus fachlicher Sicht unterstreicht das Experiment die Notwendigkeit einer ehrlichen Modellvalidierung. Trefferquoten verschleiern bei dreiklassigen Sportprognosen, bei denen Unentschieden historisch rund 27 Prozent ausmachen, häufig fundamentale Schwächen in der Wahrscheinlichkeitskalibrierung. Echte Aussagekraft liefern daher primär korrekte Bewertungsfunktionen wie Log-Loss. Für die Praxis bedeutet dies eine klare Handlungsanweisung: Komplexe Algorithmen sollten erst dann eingesetzt werden, wenn Datenvolumen und Feature-Reichtum dies rechtfertigen. Entscheidungsträger müssen Modellkomplexität und Datenlage abstimmen, durch Lernkurven validieren und die Komplexität gezielt nur steigern, wenn die Validierungsdaten einen klaren Leistungsgewinn belegen. Auf kleinen, sauberen Datensätzen bleibt eine sorgfältig kalibrierte lineare Regression oft die mathematisch überlegene Lösung. Die Disziplin, zunächst simple Baselines zu etablieren und Hypes hinter evidenzbasierten Metriken zurückzustellen, sichert robustere und generalisierbare Ergebnisse in der angewandten Data Science.
