11 天前

Transformer 是短文本分类器:在基准数据集与真实世界数据集上的归纳式短文本分类器研究

Fabian Karl, Ansgar Scherp
Transformer 是短文本分类器:在基准数据集与真实世界数据集上的归纳式短文本分类器研究
摘要

短文本分类是自然语言处理中一个关键且具有挑战性的研究方向。为此,学术界已开发出大量高度专门化的短文本分类模型。然而,在近期的短文本研究中,传统文本分类任务中的前沿方法——尤其是纯Transformer架构——尚未得到充分挖掘与应用。本文系统评估了多种短文本分类器的性能,同时对比了表现最佳的传统文本分类器。此外,我们还基于两个全新的真实世界短文本数据集展开实验,旨在缓解研究过度依赖特征有限的基准数据集所带来的问题。实验结果明确表明,Transformer模型在短文本分类任务中已达到当前最优(SOTA)的准确率,从而引发了一个重要问题:专门针对短文本设计的技术是否仍为必要?

Transformer 是短文本分类器:在基准数据集与真实世界数据集上的归纳式短文本分类器研究 | 最新论文 | HyperAI超神经