HyperAI

Régression

retourIl s'agit d'un algorithme d'apprentissage supervisé, principalement utilisé pour la prédiction et la modélisation de variables aléatoires continues numériques. Il définit la relation entre l'entrée et la sortie, où l'entrée est la connaissance existante et la sortie est la valeur prédite.

Le but de la régression est d’obtenir une ligne d’ajustement optimale.

Hypothèses et contenu

  • Dans l’analyse des données, il est généralement nécessaire de faire certaines hypothèses sur les données :
  • Homogénéité de la variance
  • Relation linéaire
  • Effets cumulatifs
  • Aucune erreur de mesure dans les variables
  • Les variables suivent une distribution normale multivariée
  • Indépendance de l'observation
  • Modèle complet
  • Les termes d’erreur sont indépendants et suivent une distribution normale (0, 1).

Contenu principal de l'analyse de régression

  1. À partir d'un ensemble de données, déterminer la relation quantitative entre certaines variables, c'est-à-dire établir un modèle mathématique et estimer les paramètres inconnus qui y figurent. Une méthode courante pour estimer les paramètres est la méthode des moindres carrés.
  2. La crédibilité de ces relations a été testée.
  3. Dans une relation où de nombreuses variables indépendantes influencent conjointement une variable dépendante, il est nécessaire de déterminer quelle(s) variable(s) indépendante(s) a(ont) un effet significatif et laquelle(s) a(ont) un effet non significatif, d'ajouter les variables indépendantes ayant des effets significatifs au modèle et d'éliminer les variables ayant des effets non significatifs. Des méthodes telles que la régression par étapes, la régression vers l’avant et la régression vers l’arrière sont généralement utilisées.
  4. Utilisez la relation requise pour prédire ou contrôler un processus de production. L’application de l’analyse de régression est très étendue et les progiciels statistiques rendent le calcul de diverses méthodes de régression très pratique.

Principaux enjeux de la recherche en analyse de régression

  • Déterminer l’expression de la relation quantitative entre Y et X, appelée équation de régression ;
  • Tester la crédibilité de l’équation de régression obtenue ;
  • Déterminer si la variable indépendante X a un impact sur la variable dépendante Y ;
  • L'équation de régression obtenue est utilisée pour la prédiction et le contrôle.

Étapes de l'analyse de régression

  • Déterminer les variables : En clarifiant l’objectif spécifique de la prédiction, vous déterminerez également la variable dépendante.
  • Établir un modèle de prédiction : Calculer sur la base des données statistiques historiques des variables indépendantes et des variables dépendantes, et sur cette base établir une équation d'analyse de régression, à savoir le modèle de prédiction d'analyse de régression.
  • Effectuer une analyse de corrélation : L'analyse de régression est une analyse mathématique et statistique des facteurs d'influence et des objets de prédiction avec des relations causales. L’équation de régression établie n’a de sens que lorsqu’il existe effectivement une certaine relation entre la variable indépendante et la variable dépendante. parce que
  • Calcul de l'erreur de prédiction : La possibilité d'utiliser le modèle de prédiction de régression pour une prédiction réelle dépend du test du modèle de prédiction de régression et du calcul de l'erreur de prédiction.
  • Déterminer la valeur prédite : utilisez le modèle de prédiction de régression pour calculer la valeur prédite et effectuez une analyse complète de la valeur prédite pour déterminer la valeur prédite finale.

Méthode d'analyse de régression

  • Régression linéaire (régularisation) : La régression linéaire est l’un des algorithmes les plus couramment utilisés pour les tâches de régression. L'algorithme est simple dans sa forme et prévoit d'utiliser un hyperplan pour ajuster l'ensemble de données.
  • Arbres de régression (méthodes d'ensemble) : les arbres de régression réalisent un apprentissage hiérarchique en divisant à plusieurs reprises un ensemble de données en différentes branches, le critère de division étant de maximiser le gain d'information de chaque division.

Régression et autres problèmes

  • Le problème de prédiction où les variables d’entrée et de sortie sont des variables continues est un problème de régression ;
  • Le problème de prédiction avec un nombre fini de variables de sortie discrètes devient un problème de classification ;
  • Le problème de prédiction lorsque les variables d’entrée et les variables de sortie sont des séquences de variables devient un problème d’étiquetage.
Mots apparentés : classification, étiquetage