回归 Regression
回归是一种监督学习算法,主要用于数值型连续随机变量进行预测和建模。其定义了输入和输出的关系,其中输入是现有知识,输出则为预测数值。
回归目的在于得到一个最优拟合线。
假定条件与内容
- 数据分析中,通常要对数据进行一些条件假定:
- 方差齐性
- 线性关系
- 效应累加
- 变量无测量误差
- 变量服从多元正态分布
- 观察独立
- 模型完整
- 误差项独立且服从(0,1)正态分布。
回归分析主要内容
- 从一组数据出发,确定某些变量之间的定量关系式,即建立数学模型并估计其中的未知参数。估计参数的常用方法是最小二乘法。
- 对这些关系式的可信程度进行检验。
- 在许多自变量共同影响着一个因变量的关系中,判断哪个(或哪些)自变量的影响是显著的,哪些自变量的影响是不显著的,将影响显著的自变量加入模型中,而剔除影响不显著的变量,通常用逐步回归、向前回归和向后回归等方法。
- 利用所求的关系式对某一生产过程进行预测或控制。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。
回归分析研究的主要问题
- 确定 Y 与 X 间的定量关系表达式,这种表达式称为回归方程;
- 对求得的回归方程的可信度进行检验;
- 判断自变量 X 对因变量 Y 有无影响;
- 利用所求得的回归方程进行预测和控制。
回归分析的步骤
- 确定变量:明确预测的具体目标,也就确定了因变量。
- 建立预测模型:依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。
- 进行相关分析:回归分析是对具有因果关系的影响因素和预测对象所进行的数理统计分析处理。只有当自变量与因变量确实存在某种关系时,建立的回归方程才有意义。因
- 计算预测误差:回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。
- 确定预测值:利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值。
回归分析的方法
- 线性回归( 正则化):线性回归是处理回归任务最常用的算法之一,该算法的形式简单,它期望使用一个超平面拟合数据集。
- 回归树(集成方法):回归树通过将数据集重复分割为不同的分支而实现分层学习,分割的标准是最大化每一次分离的信息增益。
回归与其他问题的联系
- 输入变量与输出变量均为连续变量的预测问题是回归问题;
- 输出变量为有限个离散变量的预测问题成为分类问题;
- 输入变量与输出变量均为变量序列的预测问题成为标注问题。