
摘要
在推特(Twitter)上识别立场(stance detection)尤为具有挑战性,原因在于每条推文长度极短,不断涌现新的术语和话题标签(hashtag),且其句子结构与标准书面语存在显著差异。近年来,利用大规模领域内数据对语言模型进行微调的方法已被证明在众多自然语言处理(NLP)任务中达到新的最先进水平,包括立场识别任务。本文提出一种基于BERT的新型微调方法,旨在提升掩码语言模型在立场检测中的表现。与传统的随机标记掩码策略不同,我们提出采用加权对数似然比(weighted log-odds-ratio)来识别具有高立场区分能力的词汇,并构建一种注意力机制,使其聚焦于这些关键词汇。实验结果表明,所提出的方法在2020年美国总统大选相关推文数据上的立场检测任务中,显著优于现有最先进方法。