17 天前
TweetEval:统一基准与推文分类的对比评估
Francesco Barbieri, Jose Camacho-Collados, Leonardo Neves, Luis Espinosa-Anke

摘要
社交媒体领域自然语言处理的实验研究格局过于碎片化。每年都会涌现出新的共享任务与数据集,涵盖从情感分析这类经典任务,到讽刺检测、表情符号预测等新兴课题。由于缺乏统一的评估协议,也未建立在该领域特定数据上训练的强有力基线模型,当前技术的最先进水平尚不明确。本文提出了一种新的评估框架——TweetEval,包含七个针对推特(Twitter)文本的异构分类任务。我们还提供了一套强大的基线模型作为研究起点,并系统比较了多种语言建模预训练策略的效果。初步实验结果表明,以现有的通用预训练语言模型为起点,并在推特语料上继续进行微调,能够有效提升模型性能。