信息熵适用于度量信息量规模的一个量,由香农于 1948 年提出,其借用了热力学中熵的概念,将信息中排除了冗余后的平均信息量称为信息熵,并给出了相关的数学表达式。 信息熵的三条性质 单调性:事件发生的概率越高,其携带的信息熵越低,极端案例便是 「太阳从东方升起」,由于是确…
范围索引: VWX
误差-分歧分解 Error-ambiguity decomposition
误差-分歧分解指将集成后的泛化误差分解开的过程,可以用下式表示: $latex {E= \overline {E}- \overline {A}}$ 该式中左边 E 表示集成后的泛化误差,右侧 $latex {\overline {E}}$ 是个体学习器的平均泛化误差, $lat…
希尔伯特空间 Hilbert space
希尔伯特空间即完备的内积空间,可理解为带有内积的完备向量空间。 尔伯特空间基于有限维欧几里得空间,可看做是后者的推广,其不局限于实数和有限的维数,但又不是完备性。与欧几里得空间一样,希尔伯特空间也是内积空间,且有距离和角的概念,其还是个完备的空间,其上所有的柯西序列会收敛到一点,…
学习规则 Learning Rule
学习规则是神经网络模型中的概念,其表示网络中权重会随着时间的推进而调整,一般被看做是长时间尺度的动力学规则。 一般情况下,学习规则依赖于神经元的激励值,其也可能依赖监督者提供的目标值、当前权重值。 例如手写识别使用的神经网络,存在一组输入神经元,其会被输入图像的数据激发,在激励值…
行为-评判算法 actor-critic Algorithm
行为-评判算法 Actor-Critic Algorithm 是一种增强学习算法,其结合策略网络和价值函数,通过结果的奖惩信息计算不同状态下不同动作被采用的概率,其又被称为 AC 算法。 行为-评判算法设计两个神经网络,每次都在连续状态中更新参数,且每次参数更新前后都存在相关性,…
斜决策树 Oblique decision tree
斜决策树又名多变量决策树,其将节点多个属性的线性表达式作为评判标准,相较于单变量决策树,具有对连续属性之间复杂关系建模的表达能力。 单变量决策树的每个结点均采用同一属性,这项生成的决策树若用坐标空间表示(属性即坐标轴),那么划分的边界均平行于坐标轴,但单一属性在部分情况下很难刻画…
无序属性 Non-ordinal attribute
无序属性指属性间不能按顺序排列的情况。 如颜色属性有 [ 红,黄,蓝 ] 三种,其在处理时就不能简单的转化为 [ 1,2,3 ],由于原先的属性间无明显的大小远近等「序」的关系,若转化为 [ 1,2,3 ],当计算距离时,便会在无形中引入这种「序」的关系。 类似这样的属性通常被称…
限定等距性 Restricted Isometry Property
限定等距性 RIP 描述了矩阵和标准正交阵的相似程度,在处理稀疏向量等问题时被用于描述近标准正交矩阵关系。 这个概念由 Emmanuel Candes 和 Terence Tao 提出,被用于证明压缩感知领域的多个定理,目前尚无已知的具有有界限制的等距常数矩阵(计算这些常数是强 …
训练例 Training instance
训练例是指训练中被标记的实例,从数据到模型的过程通常被称为「学习」或「训练」,这个过程一般靠算法实现。 通常,训练过程中使用的数据被称为「训练数据」,每个样本便是「训练样本」,基于训练样本组成的集合被称为「训练集」,其中拥有标记信息的示例即「样例」。
稀疏性 Sparsity
稀疏性是压缩感知的前提,主要指空元素所占比重较大的情形,通常用向量或矩阵中设置为 0 的元素数除以该向量或矩阵的条目总数。 矩阵中,若数值为 0 的元素数目远多于非 0 元素的数目时,则称该矩阵为稀疏矩阵,与之对应即非 0 元素占大多数时,该矩阵为稠密矩阵。 若信号是稀疏的,这表…
训练误差 Training error
训练误差是数据训练中出现的误差,可看作模型关于训练数据的平均损失。 训练误差与其他误差的区别 训练误差:模型在训练集上的误差验证误差:模型在验证集上的误差测试误差:模型在测试集上的误差泛化误差:衡量模型的泛化性综合来看,其之间的关系是:训练误差 < 验证误差 < 测试…
维特比算法 Viterbi algorithm
维特比算法是一种动态规划算法,其被用于寻找最可能产生观测事件序列的维特比路径——隐含状态序列,尤其是马尔科夫信息源上下文和隐马尔科夫模型中。例如在统计句法分析中,动态规划算法可被用于发现最可能的上下文派生字符串,其也被称为 「维特比分析」。 维特比算法由安德鲁·维特比(…
稀疏表达 Sparse Representation
稀疏表达基于最小数量的系数,尽可能描述更多信号的能量,不同类型的信号在不同变换下的系数分布也会不同。 稀疏表达的意义 稀疏表达的目的在于降维、可节省空间,同时稀疏表达后,特征向量各维之间的依赖性降低且更为独立。稀疏表达求解时增加的稀疏约束,使得计算后得到的 「基」&nb…
稳定性-可塑性困境 Stability-plasticity Dilemma
稳定性-可塑性困境是神经系统的一个约束,其存在于人工和生物神经系统中,可理解为稳定性和可塑性之间需要权衡以达到一种平衡的状态。 并行和分布式系统中学习需要可塑性来整合新知识,稳定性则被用于防止忘记之前的知识;可塑性过强会导致先前编码的数据不断遗忘,稳定过强则会阻碍突触水平上对该数…
相似度度量 Similarity Measure
相似度度量用于估算不同样本之间的相似程度,常作为分类问题的判断标准,机器学习和数据挖掘中常需要知道个体间差异的大小,进而评价个体的相似性和类别。 目前常见的是数据分析中的相关分析,数据挖掘中的分类算法和聚类算法,如 K-最近邻算法 KNN 和 K-均值 K-Means 等,可根据…