11 天前

长尾类别分布下多标签文本分类的平衡方法

Yi Huang, Buse Giledereli, Abdullatif Köksal, Arzucan Özgür, Elif Ozkirimli
长尾类别分布下多标签文本分类的平衡方法
摘要

多标签文本分类是一项具有挑战性的任务,因为它需要捕捉标签之间的依赖关系。当类别分布呈现长尾特征时,该任务的难度进一步增加。针对类别不平衡问题,重采样(resampling)和重加权(re-weighting)是常用方法,但当标签之间存在依赖关系时,这些方法效果有限,因为它们会导致常见标签的过度采样。本文提出将平衡损失函数(balancing loss functions)应用于多标签文本分类任务。我们在一个通用领域数据集(90个标签,Reuters-21578)和一个来自PubMed的领域特定数据集(18211个标签)上进行了实验。结果表明,一种具有分布平衡特性的损失函数,能够同时有效应对类别不平衡与标签关联问题,在性能上显著优于常用的损失函数。分布平衡方法在图像识别领域已取得成功应用,本文首次将其有效性拓展至自然语言处理领域。相关源代码已开源,地址为:https://github.com/Roche/BalancedLossNLP。

长尾类别分布下多标签文本分类的平衡方法 | 最新论文 | HyperAI超神经