Regression
zurückkehrenEs handelt sich um einen überwachten Lernalgorithmus, der hauptsächlich zur Vorhersage und Modellierung numerischer kontinuierlicher Zufallsvariablen verwendet wird. Es definiert die Beziehung zwischen Eingabe und Ausgabe, wobei die Eingabe vorhandenes Wissen und die Ausgabe der vorhergesagte Wert ist.
Der Zweck der Regression besteht darin, eine optimale Anpassungslinie zu erhalten.
Annahmen und Inhalt
- Bei der Datenanalyse ist es normalerweise notwendig, einige Annahmen über die Daten zu treffen:
- Homogenität der Varianz
- Lineare Beziehung
- Kumulative Effekte
- Kein Messfehler bei Variablen
- Die Variablen folgen einer multivariaten Normalverteilung
- Beobachtungsunabhängigkeit
- Modell komplett
- Die Fehlerterme sind unabhängig und folgen einer (0, 1)-Normalverteilung.
Hauptinhalt der Regressionsanalyse
- Bestimmen Sie ausgehend von einem Datensatz die quantitative Beziehung zwischen bestimmten Variablen, d. h. erstellen Sie ein mathematisches Modell und schätzen Sie die darin enthaltenen unbekannten Parameter. Eine gängige Methode zur Parameterschätzung ist die Methode der kleinsten Quadrate.
- Die Glaubwürdigkeit dieser Beziehungen wurde auf die Probe gestellt.
- In einer Beziehung, in der viele unabhängige Variablen gemeinsam eine abhängige Variable beeinflussen, muss ermittelt werden, welche unabhängige Variable(n) einen signifikanten und welche einen unbedeutenden Effekt haben, die unabhängigen Variablen mit signifikanten Effekten zum Modell hinzugefügt und die Variablen mit unbedeutenden Effekten eliminiert werden. Normalerweise werden Methoden wie die schrittweise Regression, die Vorwärtsregression und die Rückwärtsregression verwendet.
- Verwenden Sie die erforderliche Beziehung, um einen Produktionsprozess vorherzusagen oder zu steuern. Die Anwendung der Regressionsanalyse ist sehr umfangreich und statistische Softwarepakete machen die Berechnung verschiedener Regressionsmethoden sehr komfortabel.
Hauptprobleme der Regressionsanalyseforschung
- Bestimmen Sie den quantitativen Beziehungsausdruck zwischen Y und X, der als Regressionsgleichung bezeichnet wird.
- Testen Sie die Glaubwürdigkeit der erhaltenen Regressionsgleichung;
- Bestimmen Sie, ob die unabhängige Variable X einen Einfluss auf die abhängige Variable Y hat.
- Die erhaltene Regressionsgleichung wird zur Vorhersage und Kontrolle verwendet.
Schritte der Regressionsanalyse
- Bestimmen Sie die Variablen: Indem Sie das spezifische Ziel der Vorhersage klären, bestimmen Sie auch die abhängige Variable.
- Erstellen Sie ein Vorhersagemodell: Berechnen Sie die unabhängigen und abhängigen Variablen auf der Grundlage der historischen statistischen Daten und erstellen Sie auf dieser Grundlage eine Regressionsanalysegleichung, nämlich das Vorhersagemodell der Regressionsanalyse.
- Korrelationsanalyse durchführen: Die Regressionsanalyse ist eine mathematisch-statistische Analyse von Einflussfaktoren und Vorhersageobjekten mit kausalen Zusammenhängen. Die aufgestellte Regressionsgleichung ist nur dann aussagekräftig, wenn tatsächlich eine gewisse Beziehung zwischen der unabhängigen Variable und der abhängigen Variable besteht. Weil
- Berechnung des Vorhersagefehlers: Ob das Regressionsvorhersagemodell für tatsächliche Vorhersagen verwendet werden kann, hängt vom Testen des Regressionsvorhersagemodells und der Berechnung des Vorhersagefehlers ab.
- Bestimmen Sie den vorhergesagten Wert: Verwenden Sie das Regressionsvorhersagemodell, um den vorhergesagten Wert zu berechnen, und führen Sie eine umfassende Analyse des vorhergesagten Werts durch, um den endgültigen vorhergesagten Wert zu bestimmen.
Methode der Regressionsanalyse
- Lineare Regression (Regularisierung): Die lineare Regression ist einer der am häufigsten verwendeten Algorithmen für Regressionsaufgaben. Der Algorithmus weist eine einfache Form auf und geht davon aus, dass er zur Anpassung des Datensatzes eine Hyperebene verwendet.
- Regressionsbäume (Ensemblemethoden): Regressionsbäume erreichen hierarchisches Lernen durch wiederholtes Aufteilen eines Datensatzes in verschiedene Zweige, wobei das Kriterium für das Aufteilen darin besteht, den Informationsgewinn jeder Aufteilung zu maximieren.
Regression und andere Probleme
- Das Vorhersageproblem, bei dem sowohl die Eingabe- als auch die Ausgabevariablen kontinuierliche Variablen sind, ist ein Regressionsproblem.
- Das Vorhersageproblem mit einer endlichen Anzahl diskreter Ausgabevariablen wird zu einem Klassifizierungsproblem;
- Das Vorhersageproblem, wenn sowohl die Eingabevariablen als auch die Ausgabevariablen Variablenfolgen sind, wird zu einem Kennzeichnungsproblem.