HyperAI

Compromis Biais-variance

En statistique et en apprentissage automatique, le compromis biais-variance décrit la relation entre la complexité d'un modèle, la précision de ses prédictions et sa capacité à faire des prédictions sur des données inédites qui n'ont pas été utilisées pour former le modèle.De manière générale, à mesure que vous augmentez le nombre de paramètres réglables dans un modèle, celui-ci devient plus flexible et peut mieux s'adapter à l'ensemble de données d'entraînement. Cependant, pour les modèles plus flexibles, chaque fois qu'un nouvel échantillon est prélevé pour créer un nouvel ensemble de données d'entraînement, l'ajustement du modèle a tendance à avoir une plus grande variance.

Le dilemme biais-variance ou problème biais-variance est le conflit qui consiste à essayer de minimiser ces deux sources d’erreur simultanément.Ces deux sources d’erreur empêchent les algorithmes d’apprentissage supervisé de se généraliser au-delà de leur ensemble d’apprentissage :

  • L’erreur de biais est l’erreur causée par des hypothèses incorrectes dans l’algorithme d’apprentissage. Un biais élevé peut amener l'algorithme à manquer des relations pertinentes entre les fonctionnalités et la sortie cible (sous-ajustement).
  • La variance est l’erreur causée par la sensibilité aux petites fluctuations de l’ensemble d’apprentissage. Les algorithmes qui modélisent le bruit aléatoire dans les données d’entraînement peuvent entraîner une variance élevée (surajustement).

Le compromis biais-variance est un problème fondamental dans l’apprentissage supervisé. La situation idéale est de choisir un modèle qui capture avec précision les modèles dans les données de formation et se généralise bien aux données invisibles. Malheureusement, il est généralement impossible de faire les deux en même temps. Une méthode d’apprentissage avec une variance élevée peut être en mesure de bien représenter son ensemble d’entraînement, mais court le risque d’un surajustement à des données d’entraînement bruyantes ou non représentatives. À l’inverse, les algorithmes à biais élevé produisent souvent des modèles plus simples qui peuvent ne pas réussir à capturer des régularités importantes dans les données (c’est-à-dire sous-ajustés).

Références

【1】https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff