11 天前
长尾表示、文本极性分类与数据增强
Hamid Jalalzai, Pierre Colombo, Chloé Clavel, Eric Gaussier, Giovanna Varni, Emmanuel Vignon, Anne Sabourin

摘要
自然语言处理中主流的文本表示方法依赖于在大规模语料库上学习嵌入表示,这类方法具有组合性与距离保持等优良性质。本文提出一种新颖的方法,用于学习具有理想分布尾部正则性特征的重尾嵌入表示,从而能够借助多元极值理论框架对远离分布主体的异常点进行分析。特别地,我们构建了一个专用于该嵌入表示尾部的分类器,其性能显著优于基线方法。该分类器展现出尺度不变性特征,我们据此提出一种新型文本生成方法,用于实现标签保持的语料增强。在合成数据与真实文本数据上的数值实验验证了所提框架的有效性,结果表明该方法能够生成具有可控属性(如正面或负面情感)的语义合理句子。