3 个月前

加权Tsetlin机器:基于加权子句的压缩表示

Adrian Phoulady, Ole-Christoffer Granmo, Saeed Rahimi Gorji, Hady Ahmady Phoulady
加权Tsetlin机器:基于加权子句的压缩表示
摘要

Tsetlin Machine(TM)是一种可解释的模式识别机制,能够从数据中构建合取式(conjunctive clauses),这些合取式捕捉具有高判别能力的频繁模式,并随着额外合取式的引入逐步提升表达能力。然而,这种精度的提升是以计算时间与内存消耗的线性增长为代价的。本文提出了一种加权Tsetlin Machine(Weighted Tsetlin Machine, WTM),通过为合取式赋予实数值权重,显著降低了计算时间和内存开销。实数权重使得单个合取式能够替代多个原始合取式,并支持对每个合取式的影响进行精细调节。我们提出的新颖学习机制能够同时学习合取式的构成及其对应权重。此外,为提升训练效率,我们采用一种新采样策略:将 $k$ 次成功概率为 $p$ 的伯努利试验,替换为一个平均大小为 $pk$ 的均匀采样,其样本大小来源于二项分布。在实验评估中,WTM在MNIST、IMDb和Connect-4数据集上达到了与TM相当的准确率,但所需合取式数量分别仅为TM的 $1/4$、$1/3$ 和 $1/50$。当使用相同数量的合取式时,WTM性能优于TM,分别取得了 $98.63\%$、$90.37\%$ 和 $87.91\%$ 的峰值测试准确率。最后,所提出的新型采样策略将样本生成时间缩短了约7倍。