k-NN-Regresion in Excel: Einfache ML-Modelle mit praktischen Einblicken
Am ersten Tag des „Machine Learning Adventskalenders“ wird der k-NN-Regressor (k-Nearest Neighbors) in Excel vorgestellt – ein einfaches, aber tiefgründiges Modell, das die Grundlagen der maschinellen Lernens veranschaulicht. Der Ansatz basiert auf der Idee, dass der Wert einer neuen Beobachtung durch den Durchschnitt der Werte der k nächsten Nachbarn im Trainingsdatensatz geschätzt wird. Dies entspricht der praktischen Vorgehensweise beim Schätzen eines Immobilienpreises: Man fragt Nachbarn mit ähnlichen Eigenschaften und berechnet den Durchschnitt. Die Anwendung beginnt mit einem einfachen Datensatz mit nur einer kontinuierlichen Merkmalsvariable (z. B. Einkommen), wo die Distanz als absoluter Unterschied definiert wird. In Excel werden Funktionen wie RANK, IF und SUMPRODUCT genutzt, um die k nächsten Nachbarn zu identifizieren und deren Zielwerte zu mitteln. Die Vorhersage für einen neuen Wert, z. B. x=10, erfolgt durch Sortierung der Distanzen und Auswahl der drei kleinsten. Mit einer fortlaufenden Vorhersage über ein Intervall (1 bis 17) wird der Verlauf sichtbar, wobei der Einfluss des Hyperparameters k deutlich wird: Kleine k-Werte führen zu überanpassungsfähigen, sprunghaften Vorhersagen, große k-Werte zu glatten, aber unteranpassungsfähigen Ergebnissen – im Extremfall ist die Vorhersage überall gleich dem globalen Mittelwert. Beim Übergang zu zwei Merkmalen (z. B. Einkommen und Wohnfläche) wird die euklidische Distanz verwendet, doch hier tritt ein kritischer Punkt auf: die Skalierung der Merkmale. Eine Variable, die in 10.000 USD gemessen wird, und eine andere, die in Anzahl der Zimmer liegt, beeinflussen die Distanz ungleich. Die Variable mit größerer Skala dominiert, was zu verzerrten Nachbarn führt. Dieser Effekt ist besonders gravierend im California Housing Dataset, wo Merkmale wie geographische Koordinaten, Einkommen und Bevölkerungsdichte in völlig unterschiedlichen Maßeinheiten vorliegen. Die euklidische Distanz wird hier sinnlos, da sie die unterschiedliche Natur der Merkmale ignoriert. Die Lösung liegt in der Wahl einer sinnvolleren Distanz: Geografische Distanz für Lat/Long, manhattan- oder cosinusbasierte Distanzen je nach Kontext. Die Anwendung in der Kartographie zeigt, wie k-NN als Glättungsfunktion genutzt werden kann, um Werte für einzelne Adressen zu schätzen, wobei größere Gebiete stärker gewichtet werden. Auch kategorische Merkmale wie die Klarheit von Diamanten können in k-NN integriert werden – aber nur, wenn die Distanz sinnvoll definiert ist. Einfache One-Hot-Codierung führt zu einem Problem: Alle Kategorien sind gleich weit voneinander entfernt, was die reale Rangfolge (z. B. IF > VVS1 > VS1) ignoriert. Dies führt zu fehlerhaften Nachbarn. Dagegen wirkt eine ordnale Codierung, die auf Expertenwissen basiert (z. B. IF=10, VVS1=9, VS1=7), viel realistischer, da sie die Merkmalsnatur und die Skalierung berücksichtigt. So wird erreicht, dass weder das Einkommen noch die Klarheit übermächtig sind. Insgesamt zeigt k-NN, dass der Erfolg eines Modells nicht nur von der Algorithmenwahl, sondern von der sorgfältigen Distanzdefinition und der Skalierung abhängt. Die fehlende automatische Skalierung und die Sensibilität gegenüber Merkmalsnatur sind zentrale Einschränkungen. Trotzdem ist k-NN ein wertvolles Lernwerkzeug, da es die Intuition hinter „ähnlich = ähnlich“ direkt sichtbar macht. Für Business-Anwender ist es transparent, für Entwickler eine Herausforderung, die zu weiteren Modellen wie Random Forest, Gradient Boosting oder neuronalen Netzen führt, die diese Probleme systematischer lösen. Industrieinsider betonen, dass k-NN zwar kein klassisches „Lernmodell“ im Sinne von Parameteroptimierung ist, aber eine fundamentale Rolle in der Datenanalyse spielt – besonders als Basis für intelligente Nachbarschaftsanalysen. Seine Stärke liegt in der Interpretierbarkeit, seine Schwäche in der Skalierbarkeit und der Sensibilität gegenüber Datenqualität. Unternehmen nutzen k-NN oft in Kombination mit Feature Engineering und Distanzmetriken für Anwendungen wie Preisoptimierung, Kundensegmentierung oder räumliche Vorhersagen. Die Excel-Implementierung macht die zugrundeliegenden Mechanismen sichtbar und unterstreicht, dass „Machine Learning“ nicht immer komplex sein muss – manchmal reicht ein einfacher Durchschnitt aus ähnlichen Beobachtungen.
