11 天前

重新思考自注意力机制：迈向神经依存解析的可解释性

Khalil Mrini, Franck Dernoncourt, Quan Tran, Trung Bui, Walter Chang, Ndapa Nakashole

摘要

注意力机制在提升自然语言处理（NLP）任务性能的同时，仍保持了模型的可解释性。尽管自注意力（self-attention）目前被广泛采用，但由于存在大量注意力分布，其可解释性仍面临挑战。近期研究发现，引入与标签相关的信息不仅能提升模型表示能力，还有助于解释预测结果。为此，我们提出一种新型的自注意力结构——标签注意力层（Label Attention Layer）：在该结构中，注意力头（attention heads）直接对应于标签。我们通过句法成分分析（constituency parsing）和依存句法分析（dependency parsing）实验验证了该方法的有效性，结果表明，所提出的模型在宾夕法尼亚树库（PTB）和中文树库（Chinese Treebank）上的两项任务均取得了新的最先进性能。此外，与现有方法相比，我们的模型所需自注意力层的数量更少。最后，我们发现标签注意力头能够学习到句法类别之间的语义关联，并揭示了用于分析模型错误的潜在路径。