属性条件独立性假设 Attribute Conditional Independence Assumption
朴素贝叶斯分类器采用了「属性条件独立性假设」:对已知类别,假设所有属性相互独立。
改进朴素贝叶斯:
- 为避免其他属性携带的信息被训练集中从未出现的属性值「抹去」,在估计概率值时通常要进行「平滑」,常用「拉普拉斯修正」;
- 对属性条件独立性假设进行一定程度的放松;
- 借助有向无环图来刻画属性之间的依赖关系,并使用条件概率表来描述属性的联合概率分布。
朴素贝叶斯分类器是高度可扩展的,因此需要数量与学习问题中的变量(特征/预测器)成线性关系的参数。最大似然训练可以通过评估一个封闭形式的表达式来完成,只需花费线性时间,而不需要其他很多类型的分类器所使用的费时的迭代逼近。
在统计学和计算机科学文献中,朴素贝叶斯模型有各种名称,包括简单贝叶斯和独立贝叶斯。所有这些名称都参考了贝叶斯定理在该分类器的决策规则中的使用,但朴素贝叶斯不(一定)用到贝叶斯方法;《Russell 和 Norvig》提到「『朴素贝叶斯』有时被称为贝叶斯分类器,这个马虎的使用促使真正的贝叶斯论者称之为傻瓜贝叶斯模型。