2 个月前

TACO -- 从对话中提取的Twitter论点

Marc Feger; Stefan Dietze
TACO -- 从对话中提取的Twitter论点
摘要

Twitter 已成为全球在线对话的重要中心,同时也是多个学科的研究语料库,这些学科已经认识到其用户生成内容的重要性。论点挖掘是一项重要的分析任务,用于处理和理解在线话语。具体而言,其目标是识别论点的结构元素,即信息和推理。然而,这些元素并非静态存在,可能需要在其所在对话的上下文中进行理解,但目前缺乏针对 Twitter 上这一动态方面的数据和注释框架。我们贡献了 TACO(Twitter Arguments Corpus),这是首个涵盖六个不同主题的 200 次完整对话、包含 1,814 条推文的数据集,六位专家之间的 Krippendorff's alpha 一致性评分为 0.718。其次,我们提供了我们的注释框架,该框架结合了《剑桥词典》中的定义来界定和识别 Twitter 上的论点成分。基于变压器的分类器在检测论点方面达到了 85.06% 的宏 F1 基准分数。此外,我们的数据表明 Twitter 用户倾向于参与涉及有根据的推理和信息的讨论。TACO 具有多重用途,例如训练推文分类器以根据推理和信息元素管理推文,同时为推文的对话回复模式提供有价值的见解。

TACO -- 从对话中提取的Twitter论点 | 最新论文 | HyperAI超神经