
摘要
Tsetlin Machine(TM)是一种基于命题逻辑的可解释模式识别算法,在自然语言处理(NLP)的多项任务中表现出具有竞争力的性能,包括情感分析、文本分类以及词义消歧。为实现人类级别的可解释性,传统TM采用布尔型输入特征,例如词袋模型(Bag-of-Words, BOW)。然而,BOW表示方式难以利用预训练的语义信息,如word2vec和GloVe等词向量表示,这一局限性导致TM在NLP任务中的性能相较于深度神经网络(DNN)模型受到显著制约。为缩小这一性能差距,本文提出一种全新的方法,将预训练词向量有效融入TM框架。该方法通过从预训练词向量中提取语义相关词汇作为TM的输入特征,显著提升了TM的性能与可解释性。实验结果表明,所提出方法的准确率显著优于基于BOW的旧有TM模型,已达到基于DNN模型的水平。