
摘要
近年来,自然语言处理(NLP)领域的技术进步重塑了整个行业,以GPT-3为代表的强大语言模型在多项任务中已展现出超越人类的表现。然而,这些模型日益复杂的结构使其成为“黑箱”,导致对其内部运作机制和决策过程缺乏透明性与可解释性。Tsetlin Machine(TM)通过在命题逻辑中使用人类可理解的合取命题(conjunctive clauses),成功解决了复杂的模式识别问题,并在多种NLP任务中表现出具有竞争力的性能。本文提出一种新型卷积型Tsetlin Machine架构——ConvTextTM,用于文本分类任务。与传统TM方法将整段文本视为特定语料库的词集(Set-of-Words, SOW)不同,ConvTextTM将文本分解为一系列文本片段,并通过对这些片段进行卷积操作,实现了对局部位置信息的感知分析。此外,ConvTextTM不再依赖于特定语料库的词汇表,而是采用基于双向编码器表示模型(Bidirectional Encoder Representations from Transformers, BERT)的分词方案构建通用词集。该卷积机制将词元(tokens)进行关联,使ConvTextTM能够有效应对词汇表外词(out-of-vocabulary)问题以及拼写错误。本文通过基于命题的特征分析,深入探究了所提出方法的局部可解释性。在七个公开数据集上开展的大量实验表明,ConvTextTM的分类准确率在多数情况下优于或至少可与当前最先进的基线方法相媲美。