HyperAIHyperAI

Command Palette

Search for a command to run...

Prédire avec k-NN en Excel : le premier pas vers l’apprentissage automatique, sans code, mais avec des pièges à éviter

Le 1er jour de l’« Advent Calendar » dédié à l’apprentissage automatique et au deep learning dans Excel commence avec l’algorithme du régresseur k-NN (k-Plus Proches Voisins). Ce modèle, bien que simple, offre une introduction intuitive à la logique des méthodes basées sur les voisins. Contrairement aux modèles traditionnels qui nécessitent un entraînement complexe, k-NN ne « apprend » pas au sens classique : il stocke simplement les données d’entraînement et les utilise directement pour prédire. Pour une nouvelle observation, il identifie les k exemples les plus proches selon une mesure de distance, puis calcule la moyenne de leurs cibles — une approche très proche de la manière dont un humain évaluerait le prix d’un bien immobilier en se basant sur des voisins similaires. Dans cet article, l’auteur illustre le fonctionnement du k-NN avec des exemples concrets, en utilisant d’abord un seul attribut continu (par exemple, le revenu médian) sur un jeu de données réduit. La distance est simplement la valeur absolue de la différence. En Excel, des fonctions comme RANK, IF et SUMPRODUCT permettent d’automatiser la recherche des k plus proches voisins et de calculer la prédiction. L’approche se généralise à deux attributs continus en utilisant la distance euclidienne, mais une question cruciale surgit : l’échelle des variables. Si une caractéristique est exprimée en dollars et une autre en yen, ou si l’une est en milliers et l’autre en unités, la distance devient biaisée. Le modèle ne sait pas que 1 dollar = 156 yens : il traite toutes les unités comme équivalentes, ce qui rend la distance euclidienne inappropriée. Ce problème s’aggrave avec le jeu de données California Housing, où les attributs varient fortement : revenu médian, âge des logements, nombre de pièces, population, latitude et longitude. L’application naïve du k-NN avec distance euclidienne donne des résultats artificiels, car les variables ne sont pas sur une échelle comparable. L’auteur montre que, dans ce cas, une distance géographique réelle (en mètres) entre deux points GPS est plus pertinente que la distance euclidienne sur des degrés. Cela permet une meilleure modélisation spatiale, notamment pour lisser des données sur une carte, comme dans les visualisations de Paris où chaque quartier est évalué en fonction de ses voisins. L’article aborde aussi les variables catégorielles, en utilisant le jeu de données des diamants. L’encodage one-hot, bien qu’usuel, pose un problème majeur : toutes les catégories sont équidistantes, ce qui ne reflète pas la hiérarchie réelle (par exemple, IF est plus proche de VVS1 que de SI2). De plus, combiné à une variable continue comme le carat, il peut dominer la distance. Une solution meilleure consiste à utiliser un encodage ordinal basé sur l’expertise : attribuer des valeurs numériques qui reflètent la qualité réelle (ex. : IF = 10, VVS1 = 9, etc.). Cela rend les distances plus significatives et équilibre l’importance des variables. En conclusion, le k-NN est un modèle très local, non linéaire, et extrêmement sensible à l’échelle des données et au choix de la distance. Il n’ajuste pas automatiquement les échelles, ce qui signifie que l’importance des attributs doit être définie à l’avance. Ce manque de robustesse face aux échelles est une faiblesse fondamentale, mais aussi une leçon précieuse : elle motive l’évolution vers des modèles plus sophistiqués, capables de gérer automatiquement l’importance des caractéristiques, de transformer les distances en probabilités, ou de partitionner les données de manière plus efficace. L’implémentation dans Excel, bien qu’expérimentale, dévoile clairement les mécanismes cachés derrière l’apprentissage automatique, rendant le concept accessible à un public non technique.

Liens associés

Prédire avec k-NN en Excel : le premier pas vers l’apprentissage automatique, sans code, mais avec des pièges à éviter | Articles tendance | HyperAI