18 天前
基于超网络的从正式新闻稿领域到推特词性标注的迁移方法
{Xuanjing Huang, Keyu Ding, Di Liang, Tao Gui, Minlong Peng, Qi Zhang, Jingjing Gong}

摘要
近年来,推特(Twitter)文本的词性标注(Part-of-Speech, POS)任务受到了广泛关注。由于大多数词性标注方法基于有监督模型,通常需要大量标注数据进行训练。然而,现有的推特标注数据集规模远小于新闻文本(newswire)数据集。因此,为提升推特词性标注性能,多数领域自适应方法尝试通过挖掘新闻文本与推特文本之间的共享特征,利用新闻数据集来辅助推特标注。然而,从语言学角度来看,推特用户不仅倾向于模仿传统媒体(如新闻)中的正式表达方式,同时也逐渐发展出非正式的语言风格。因此,针对推特中正式语境的词性标注,可结合新闻语料进行学习;而针对非正式语境的词性标注,则应采用独立的学习策略。为实现这一目标,本文提出一种基于超网络(hypernetwork)的方法,通过生成不同的模型参数,分别建模具有不同表达风格的语境。在三个不同数据集上的实验结果表明,所提方法在大多数情况下均优于现有最先进方法。