11 天前
UTNLP 参与 SemEval-2022 任务 6:基于生成式与变异式数据增强的讽刺检测对比分析
Amirhossein Abaskohi, Arash Rasouli, Tanin Zeraati, Behnam Bahrak

摘要
讽刺(Sarcasm)是一种通过语言对他人进行嘲讽、挑衅或取乐的表达方式,广泛应用于社交媒体中。由于其隐喻性和创造性特征,讽刺给基于情感计算的情感分析系统带来了显著挑战。本文介绍了我们团队UTNLP在SemEval-2022第6项共享任务——讽刺检测中的方法与实验结果。我们对比了多种模型架构以及数据增强策略,并报告了各项方法的性能表现。实验从传统的机器学习模型逐步推进至基于Transformer和注意力机制的先进模型。在数据增强方面,我们采用了基于数据变异(data mutation)和数据生成(data generation)的方法。在竞赛的评估阶段,采用RoBERTa模型结合基于变异的数据增强策略,我们的最优方法取得了0.38的F1-讽刺得分。竞赛结束后,我们对模型进行了优化与缺陷修复,最终在后续测试中将F1-讽刺得分提升至0.414。