预测分析 (Predictive Analytics) 是使用数据预测未来结果的过程。这一过程使用数据分析、机器学习、人工智能和统计模型来寻找可能预测未来行为的模式。组织可以使用历史数据和当前数据预测未来几秒、几天或几年的趋势和行为,并且非常精确。
预测分析的工作原理
数据科学家使用预测模型来识别选定数据集中不同元素之间的相关性。数据收集完成后,系统就会制定、训练和修改一个统计模型以生成预测。
构建预测分析框架的工作流包含五个基本步骤:
- 定义问题:预测从一个好的论题和一组要求开始。例如,预测分析模型能否检测欺诈?能否为节假日购物季确定最佳库存水平?能否确定恶劣天气可能导致的洪水水位?一个待解决的清晰问题将有助于确定应该使用的预测分析方法。
- 获取和整理数据:组织可能拥有积累了数十年的数据,或者是客户互动产生的源源不断的海量数据。在开发预测分析模型之前,必须先确定数据流,然后将数据集整理到存储库中。
- 预处理数据:原始数据本身仅仅是名义上有用。如需为预测分析模型准备数据,应清理数据以移除异常值、缺失的数据点或极端离群值,这些值可能是输入或测量错误的结果。
- 开发预测模型:数据科学家可以利用各种工具和技术根据要解决的问题和数据集的性质来开发预测模型。机器学习、回归模型和决策树是最常见的预测模型类型。
- 验证和部署结果:检查模型的准确性,并进行相应调整。获得可接受的结果后,通过应用、网站或数据信息中心提供给利益相关方。
预测分析方法
一般而言,预测模型有两种类型:分类模型和回归模型。分类模型会尝试将数据对象(例如客户或潜在结果)归入某个类别。例如,如果零售商有不同类型客户的大量数据,他们可能会尝试预测哪些类型的客户愿意接收营销电子邮件。回归模型会尝试预测连续数据,例如客户在与公司的关系存续期间将带来多少收入。
通常使用以下三种主要的分析法来执行预测分析:
- 回归分析:回归是一种统计分析法,用于估算变量之间的关系。回归可用于确定大型数据集中的模式,从而确定输入之间的相关性。此方法最适合用于遵循已知分布的连续数据。回归通常用于确定一个或多个自变量如何影响另一个自变量(例如,价格上调会如何影响商品的销售量)。
- 决策树:决策树是分类模型,可根据不同的变量将数据归入不同的类别中。此方法最适合用于理解个人的决策。这个模型看起来像一棵树,每个分支代表一个可能的选择,分支的树叶代表决策结果。决策树通常很容易理解,并且当数据集缺少几个变量时表现良好。
- 神经网络:神经网络是机器学习方法,在对非常复杂的关系建模时,是十分有用的预测分析方法。实质上,它们是强大的模式识别引擎。神经网络最适合用于确定数据集中的非线性关系,尤其是在没有用于分析数据的已知数学公式的情况下。神经网络可用于验证决策树和回归模型的结果。
预测分析的用途和示例
预测分析可用于为几乎所有企业或行业(包括银行、零售、公用事业、公共部门、医疗保健和制造)简化运营、提升收入并降低风险。有时,人们也会使用增强分析,这种分析利用大数据机器学习。以下是其他一些使用场景:
- 欺诈检测:预测分析会实时检查公司网络中的所有操作,以找出导致欺诈和其他漏洞的异常。
- 转化和购买预测:公司可以采取一些行动,比如对访问者进行在线广告的重访定位,通过数据来预测哪些访问者更有可能发生转化、更有可能存在购买意向。
- 降低风险:信用评分、保险索赔和债务催收均可使用预测分析来评估和确定未来违约的可能性。
- 运营改进:公司使用预测分析模型来预测库存、管理资源并提高运营效率。
- 客户细分:通过将客户群划分为特定的群体,营销人员即可使用预测分析做出高瞻远瞩的决策,从而根据独特的受众群体量身定制内容。
- 维护预测:组织利用数据预测何时需要对设备进行日常维护,随后及时安排维护,避免出现问题或故障。
参考来源
【1】https://cloud.google.com/learn/what-is-predictive-analytics?hl=zh-cn