间隔理论 Margin theory

间隔理论是支持向量机中的概念,其中间隔是指超平面划分两类样本之间的最小距离,而间隔理论可被用于解释 AdaBoost 算法在训练误差为 0 的情况下,继续训练可进一步提升模型的泛化性能。 令 x 和 y 代表样例的输入和输出空间,D 是 x · y 上的样例真实分布,而 S=$l…

k-均值聚类 k-Means Clustering

k-均值聚类是一种向量量化方法,早期被用于信号处理,目前主要作为一种聚类分析方法活跃于数据挖掘领域。 k-均值聚类的目的是将 n 个点划分至 k 个聚类中,使得每个点都属于最近的均值对应的聚类,并以此作为聚类标准,这类问题可理解为将一个数据空间划分为 Voronoicells 的…

经验风险 Empirical risk

经验风险展示了模型对训练样本的预测能力,其通过对所有训练样本求一次损失函数,再累加求平均得出,其中损失函数是期望风险、经验风险和结构风险的基础。 损失函数是针对单个具体的样本而言的,表示的是模型预测值与真实值之间的差距。 实际应用中,通常会追求经验风险最小化,经验风险是对训练集中…

纠错输出码 Error Correcting Output Codes

纠错输出编码法 ECOC 可将多类问题转换为多个两类问题,且纠错输出码本身具有纠错能力,可提升监督学习算法的预测精度。 对输出类别编码可将多类问题两类化,即每个类别对应一个长度为 n 的二进制位串,共形成 m 个码字,这些码字描述了一个二值函数。学习结束后可获得 N 个二分器,每…

集成学习 Ensemble learning

集成学习是将多个模型组合成高精度模型的思想,主要用于机器学习领域,它不是一个单独的机器学习算法,而是通过构建和结合多个学习器以完成学习任务。 集成学习可被用于分类问题、回归问题、特征选取、异常点检测等,可以说所有的机器学习领域都能看到集成学习的身影。 集成学习目前主要由两个问题需…

假设检验 Hypothesis test

假设检验是一种检验统计假设的方法,主要用于推论统计,其中「统计假设」是一种检验科学假说,主要通过观察随机变量的模型进行,在可估计未知参数的前提下,便可根据结果对未知参数值做出适当的推论。 统计上对参数的假设,是对一个或多个参数的论述,其中需要检验正确性的为零假设,零假设通常由研究…

留出法 Hold-out

留出法是一种模型评估方法,其通过将数据集 D 划分为两个互斥的集合,假设其中一个集合为训练集 S,另一个为测试集 T,则有: D = S ∪ T , S ∩ T = ∅ 训练/测试集的划分要尽可能保持数据分布的一致,为避免数据划分过程中引入的额外偏差导致结果出现影响,因此通常采用…

类比学习 Learning by analogy

类比学习是一种认知思维与推测的方法,其通过将两类事物或情形进行比较,找出它们在对象层上的相似关系,并以此为依据对比事物与情形之间的关系,通过适当整理/交换对应到另一事物上,从而获得对应的解。 类比学习的分类方法有以下几种: 按对象分类:根据对象的不同,可分为个别性类比、特殊性类比…

懒惰学习 Lazy learning

懒惰学习是一种训练集处理方法,其会在收到测试样本的同时进行训练,与之相对的是急切学习,其会在训练阶段开始对样本进行学习处理。 若任务数据更替频繁,则可采用懒惰学习方式,先不进行任何训练,收到预测请求后再根据当前数据进行概率估值;若数据不断增加,则可在现有估值基础上,仅对新增样本的…

极大似然估计 Maximum Likelihood Estimation

极大似然估计是一种估计方法,主要用于确定模型参数,其通过找到最大化模型观测值的可能数据,并以此作为最终选择。 极大似然估计中采样满足独立同分布的假设,其目的在于利用已知的样本结果,反推最大概率导致相关结果的参数值。

流形假设 Manifold assumption

流形假设是半监督学习中的常用假设,另一种是聚类假设。 流形假设是指具有相似性质的示例,其通常处于较小的局部领域,因此标记也十分相似,这种假设反映了决策函数的局部平滑性。 不同于关注整体特性的聚类假设,流形假设更关注模型的局部特性。 在该假设下,大量未标记示例的目的在于让数据空间变…

机器翻译 Machine translation

机器翻译是利用计算机实现不同语言转换,其通常是将源语言翻译为目标语言。 翻译流程 从人为翻译来看机器翻译,翻译的过程可被细分如下: 解译来源文字的文意重新编译此解析后所得的文意至目标语言。 翻译方法 一般机器翻译的步骤可以细分为: 基于规则的翻译基于统计的翻译两者结合的方法 深度…

均方误差 Mean squared error

均方误差是反映估计量与真实量之间差异程度的期望值,常被用于评价数据的变化程度,预测数据的精确度。 假设存在参数 $latex { \theta }$ ,其估计函数为 $latex {T}$ ,则有 $latex {MSE{ \left( {T} \right) }\text{ }…

流形学习 Manifold learning

流形学习是模式识别中的基本方法,其基于观测到的现象中去寻找事物的本质,找到产生数据的内在规律。 流形学习分为线性流形学习算法和非线性流形学习算法两种,其中非线性流形学习算法包括等距映射 Isomap,拉普拉斯特征映射 Laplacian eigenmaps,局部线性嵌入 Loca…

绝对多数投票法 Majority voting

绝对多数投票法是一种投票法,其需要有效票过半数才认可,在多个分类器对某一类别进行预测的情况下,只会预测高于总结果一半的部分。 以下是表示的公式: $latex {H{ \left( {x} \right) }\text{ }=\text{ }{ \left\{ {\begin{a…