HyperAIHyperAI

Command Palette

Search for a command to run...

马其顿语推特情感分析

Dame Jovanoski Veno Pachovski Preslav Nakov

Twitter 情感分析

20 小时 RTX 5090 算力资源,仅 $1 (原价 $7)
跳转至 Notebook

摘要

我们展示了针对马其顿语推特的情感分析工作。由于这是该语言与体裁组合的开创性工作,我们为训练和评估马其顿语推文情感分析系统创建了合适的资源。具体而言,我们开发了一个标注了推文级情感极性(正面、负面和中性)以及短语级情感的推文语料库,并免费提供给研究用途使用。此外,受先前英语相关工作的启发,我们还引导构建了多个大规模的马其顿语情感词典。通过实验展示了不同预处理步骤以及各种特征的影响,这些实验代表了首次尝试为形态丰富的马其顿语构建推特情感分析系统。总体而言,我们的实验结果达到了92.16的F1分数,表现非常强劲,与近期SemEval竞赛中取得的英语最佳结果相当。

一句话总结

本文提出了一种面向马其顿语 Twitter 情感分析的开创性系统。该系统利用免费公开的语料库(包含推文级与短语级情感极性标注)以及通过自举方式构建的大规模词典,在评估多种预处理步骤与特征后,取得了 92.16 的 F1 分数,达到了与 SemEval 英语基准相当的最高水平。

核心贡献

  • 引入了一套免费公开的马其顿语推文标注语料库,包含推文级与短语级情感极性标签,以支持该形态学丰富语言的训练与评估。
  • 为马其顿语自举构建了多个大规模情感词典,并系统评估了不同预处理步骤与特征集的影响,从而构建出 Twitter 情感分析系统。
  • 实验评估表明,所提方法取得了 92.16 的 F1 分数,与近期 SemEval 英语竞赛中的顶尖性能水平相当。

引言

社交媒体的快速扩张使情感分析成为追踪公众舆论、指导营销策略和监测社会趋势的重要工具。尽管英语 Twitter 情感分析已通过标准化基准和大规模自动化词典走向成熟,但马其顿语自然语言处理仍处于显著落后状态。以往的马其顿语研究依赖小型、特定领域的语料库,其标注不公开,且手动编纂的词典无法扩展,也难以充分应对社交媒体文本的形态学复杂性。为弥补这些不足,本文作者开发了首个面向马其顿语推文的端到端情感分析框架。作者发布了包含正面、负面和中性极性的原生标注语料库,为该语言自举构建了大规模情感词典,并展示了一个在性能上可与顶尖英语系统相媲美的分类模型。

数据集

  • 数据集构成与来源: 作者于 2014 年 11 月至 2015 年 4 月期间通过 Twitter API 收集了约 50 万条推文。采用高精度朴素贝叶斯分类器过滤被错误分类的保加利亚语和俄语帖子,从而分离出纯马其顿语语料库。该数据集同时包含推文级极性标签和短语级情感标注。
  • 子集详情与过滤: 训练集由一名母语人士对推文和短语情感进行标注。测试集由两名母语人士标注,作者剔除了标注员存在分歧的 474 条推文,导致标注员间一致性处于中等水平(Cohen's Kappa = 0.41)。最终的数据划分保持了正负推文比例的大致平衡,中性类别占比相对较小。
  • 数据使用与建模: 作者使用该语料库训练基于 TF-IDF 特征加权的逻辑回归情感分类器。短语级标注与翻译词典被整合至训练流程中,用于自举马其顿语情感资源并提升特征表示能力。
  • 处理与特征工程: 预处理流程将文本转为小写,移除 URL 链接与 @提及,删除 146 个停用词,并消除重复字符。否定处理通过在 token 前添加 NEG_CONTEXT_ 前缀实现。非标准方言与俚语通过包含 173 个条目的映射词典进行规范化。流程进一步应用基于规则的感知机训练词性标注、基于 Jaro-Winkler 与 Levenshtein 距离的模糊词形还原,以及专为马其顿语高度屈折形态设计的包含 65 条规则的词干提取器。最终特征采用 TF-IDF 加权计算。除上述语言转换外,未进行裁剪或显式元数据构建。

方法

作者利用自动化方法构建情感词典,采用点互信息(PMI)确定文本数据中词汇与短语的语义倾向。该方法根据词汇与预定义正面及负面种子词的关联程度,为每个词分配情感得分。词 www 的语义倾向 SO(w)SO(w)SO(w) 计算为其与正面种子词的 PMI 减去与负面种子词的 PMI:

SO(w)=PMI(w,pos)PMI(w,neg)SO(w) = PMI(w, pos) - PMI(w, neg)SO(w)=PMI(w,pos)PMI(w,neg)

其中,PMI(w,pos)PMI(w, pos)PMI(w,pos) 量化 www 与任意正面种子词共现的强度,PMI(w,neg)PMI(w, neg)PMI(w,neg) 衡量其与负面种子词的关联程度。PMI 公式定义如下:

PMI(w,pos)=P(w,pos)P(w)P(pos)PMI(w, pos) = \frac{P(w, pos)}{P(w)P(pos)}PMI(w,pos)=P(w)P(pos)P(w,pos)

其中 P(w,pos)P(w, pos)P(w,pos) 表示在推文中观察到 www 与任意正面种子词共同出现的联合概率,P(w)P(w)P(w) 表示 www 出现在任意推文中的边缘概率,P(pos)P(pos)P(pos) 表示在推文中遇到任意正面种子词的概率。PMI(w,neg)PMI(w, neg)PMI(w,neg) 采用类似定义。SO(w)SO(w)SO(w) 为正值表示正面情感极性,负值表示负面情感极性,其绝对值大小反映情感强度。

基于 PMI 的框架构成了英语大规模情感词典的基础,例如 Hashtag Sentiment Lexicon 与 Sentiment140,这些词典利用标签或表情符号作为种子指示符,从数百万条推文中提取携带情感信息的词汇。在马其顿语处理语境下,作者将该方法进行适配,以手动构建的马其顿语情感极性词典作为种子词。随后,尽管规模小于英语数据集,作者仍从 50 万条马其顿语推文语料库中挖掘出更多携带情感的词汇。研究表明,使用更大的种子集能有效丰富词典内容。此外,作者还探索了利用现有词典的翻译版本作为种子来构建词典的方法。

为评估这些词典的影响,作者定义了一组完全或部分依赖于此的特征集。这些特征包括:推文中正面与负面词汇的数量、正面与负面词汇占情感词汇总数的比例、所有匹配词典条目的情感得分总和,以及正面与负面情感得分的独立总和。附加特征涵盖正面与负面表情符号的计数。当同时使用多个词典时,每个特征会针对各词典分别实例化。分类模型采用逻辑回归,基础特征由 TF-IDF 加权的一元词与二元词组成,并结合表情符号出现情况,同时引入源自词典的情感导向特征进行增强。

实验

评估遵循 SemEval Twitter 情感分析框架,使用正面与负面类别的平衡 F 分数衡量性能。第一个实验验证了各独立预处理步骤的贡献,结果表明停用词移除、否定处理与方言规范化对维持模型精度至关重要,而词性标注带来的收益微乎其微。第二个实验验证了情感资源的作用,揭示出手动编纂与自举构建的词典均能显著提升性能,其中自举数据在捕捉细微情感线索方面展现出尤为关键的影响。

{"summary": "作者评估了预处理步骤与情感词典对情感分析性能的影响。结果表明,特定的预处理步骤与词典会显著影响 F 分数,且不同组件的贡献程度存在差异。", "highlights": ["移除停用词过滤与否定处理会导致性能大幅下降。", "向标准马其顿语的规范化对结果产生显著影响。", "手动编纂的词典贡献显著,但自举构建的词典影响更大。"]}

作者采用与以往 SemEval 任务一致的设置评估系统性能,将 F 分数作为核心指标。数据集按指定的类别分布划分为训练集与测试集,结果凸显了预处理步骤与词典特征的重要性。停用词移除与否定处理等预处理操作对性能产生显著影响。手动编纂的情感词典对整体 F 分数贡献重大。在提升性能方面,自举构建的词典甚至比手动编纂的词典更具影响力。

作者评估了移除各独立预处理步骤对 F 分数的影响,其中停用词移除与否定处理带来的负面效应最为显著。向标准马其顿语的规范化与重复字符处理也具有实质性贡献,而词性标注的影响微乎其微。结果表明,移除部分预处理组件会导致性能大幅下滑,其中停用词移除与否定处理的缺失造成的降幅最大。移除停用词过滤与否定处理会导致 F 分数出现最大幅度的下降。向标准马其顿语规范化与重复字符处理显著影响性能。词性标注对 F 分数几乎无影响。

作者评估了不同预处理步骤与情感词典对 F 分数性能的影响。结果表明,排除特定词典会导致性能显著下降,而移除其他组件的影响则相对较小。排除手动编纂的词典会导致 F 分数大幅降低。排除自动构建的词典会引起 F 分数最显著的下滑。移除翻译词典对 F 分数的影响微乎其微。

作者采用标准的 SemEval 风格框架,配合独立的训练集与测试集划分,评估情感分析系统的整体分类质量。一组实验验证了特定预处理技术的必要性,结果表明停用词移除与否定处理对稳健性能不可或缺,而词性标注实际上并非必需。另一组实验评估了不同类型的情感资源,证明自动构建的词典带来的性能提升最大,其次为手动编纂的词典,翻译资源的收益则极为有限。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供