
摘要
立场检测(Stance Detection)旨在识别作者对某一关注目标所表达的态度。该任务涵盖多个领域,从社交媒体中的观点识别到法律主张立场的判定等。然而,不同领域在数据采集方式、标签词典以及标注样本数量等方面存在显著差异。此外,各主题内部及主题之间的立场标注均存在严重的不平衡问题。这些因素使得跨领域立场检测成为一项极具挑战性的任务,亟需标准化处理与领域自适应机制。为应对上述挑战,我们提出了一种名为Topic-Efficient Stance Detection(TESTED)的新方法,其核心包括一种基于主题引导的多样性采样策略,以及用于微调立场分类器的对比学习目标。我们在一个包含16个数据集的现有基准上对方法进行了评估,分别在“域内”(即所有主题均在训练集中出现)和“域外”(即存在未见主题)两种场景下进行实验。实验结果表明,我们的方法在域内任务上相较当前最优模型平均提升了3.5个F1分数,在域外任务上平均提升了10.2个F1分数,且仅使用了不超过10%的训练数据,展现出更强的泛化能力。我们进一步验证了所提出的采样技术能够有效缓解主题间及主题内部的类别不平衡问题。最后,分析结果表明,对比学习目标有助于模型更清晰地区分具有不同标签的样本,实现更显著的样本聚类与边界分割。