2 个月前

ArgSciChat:科学论文辩论对话数据集

Federico Ruggeri; Mohsen Mesgar; Iryna Gurevych
ArgSciChat:科学论文辩论对话数据集
摘要

由于缺乏对话数据来训练此类代理,会话代理在科学学科(作为专家领域)中的应用研究相对较少。虽然大多数数据收集框架,如亚马逊机械土耳其(Amazon Mechanical Turk),通过连接众包工作者和任务设计者促进了通用领域的数据收集,但这些框架在专家领域的数据收集方面并未进行充分优化。科学家们由于时间有限,很少参与这些框架。因此,我们提出了一种新的框架,用于收集科学家作为领域专家对科学论文的对话。该框架允许科学家以他们的科学论文为对话基础,并参与他们感兴趣的论文标题的对话。我们利用该框架收集了一个新的论证性对话数据集——ArgSciChat。该数据集包含来自20篇科学论文上的41次对话中的498条消息。除了对ArgSciChat进行广泛的分析外,我们还在我们的数据集上评估了一种最近的会话代理。实验结果表明,该代理在ArgSciChat上的表现较差,这激发了对论证性科学会话代理进一步研究的需求。我们发布了我们的框架和数据集。

ArgSciChat:科学论文辩论对话数据集 | 最新论文 | HyperAI超神经