2 个月前

BERT 能“吃”RuCoLA 吗？用拓扑数据分析来解释

Irina Proskurina; Irina Piontkovskaya; Ekaterina Artemova

摘要

本文研究了针对可接受性分类进行微调的Transformer语言模型（LMs）如何捕捉语言特征。我们的方法采用了自然语言处理（NLP）领域中拓扑数据分析（TDA）的最佳实践：我们从注意力矩阵构建有向注意力图，从中提取拓扑特征，并将其输入线性分类器。我们引入了两个新的特征——弦性（chordality）和匹配数（matching number），并展示了基于TDA的分类器优于微调基线模型。我们在两种数据集上进行了实验，分别是英语的CoLA和俄语的RuCoLA，这两种语言在类型学上存在显著差异。此外，我们提出了一些黑盒内省技术，旨在检测微调过程中LMs注意力模式的变化，定义LMs的预测置信度，并将各个注意力头与细粒度的语法现象关联起来。我们的结果有助于理解单语LMs在可接受性分类任务中的行为，提供了关于注意力头功能角色的见解，并突显了基于TDA的方法在分析LMs方面的优势。我们发布了代码和实验结果，以便进一步应用。