
摘要
心理健康仍是全球公共卫生领域面临的重大挑战。随着在线平台的日益普及,越来越多用户利用这些平台分享自身的心理健康状况,表达情绪,并向社区成员及心理咨询师寻求帮助。一些平台(如Reachout)是专门设立的论坛,用户需注册后方可获取支持;另一些平台(如Reddit)则提供多个子版块(subreddits),用户可匿名公开发布关于心理困扰的内容。尽管这些帖子的长度各不相同,但为便于心理咨询师快速处理,提供简明而信息丰富的摘要具有重要意义。为推动心理健康类在线帖子摘要研究的发展,我们发布了MentSum数据集——一个包含超过2.4万条来自Reddit 43个心理健康相关子版块的精选用户帖子及其由用户自行撰写的简短摘要(即TLDR,Too Long; Didn't Read)的英文语料库。该领域特定数据集不仅有助于在Reddit上生成简短摘要,也可应用于专门心理健康论坛(如Reachout)的帖子摘要生成任务。我们进一步基于ROUGE评分对当前最先进的抽取式与生成式摘要模型进行了评估,并开展了深入的人工评估研究,系统比较了用户撰写摘要与系统生成摘要的质量,揭示了该研究方向所面临的关键挑战。