Command Palette
Search for a command to run...
Aysenur Kocak Shuo Yang Bardh Prenkaj Gjergji Kasneci

摘要
预训练语言模型在众多应用中取得了显著成功,但仍易受虚假的、由概念驱动的关联性影响,从而损害模型的鲁棒性与公平性。本文提出一种新颖且轻量级的框架——CURE,能够系统性地解耦并抑制概念性捷径,同时保留关键的内容信息。我们的方法首先通过一个专用的内容提取器,结合反向网络进行强化,提取与概念无关的表征,从而最大限度地保留任务相关的信息。随后,一个可调控的去偏模块利用对比学习精细调节残余概念线索的影响,使模型能够根据目标任务的需要,选择性地削弱有害偏差或利用有益的相关性。在IMDB和Yelp数据集上,基于三种预训练模型架构的实验表明,CURE在IMDB上将F1分数绝对提升10个百分点,在Yelp上提升2个百分点,同时引入的计算开销极小。本方法为应对概念偏差提供了一种灵活且无需监督的范式,为构建更可靠、更公平的语言理解系统开辟了新路径。