11 天前

RadQA:用于提升放射科报告理解能力的问答数据集

{Kirk Roberts, Atieh Pajouhi, Meghana Gudala, Sarvesh Soni}
RadQA:用于提升放射科报告理解能力的问答数据集
摘要

我们提出一个放射科问答数据集RadQA,包含3074个基于放射科报告提出的问题,并由医师标注了相应的答案片段(共生成6148个问题-答案证据对)。这些问题通过人工构建,依据报告中的临床申请(clinical referral)部分生成,充分考虑了开具检查的临床医生的实际信息需求,同时避免因预览答案上下文而产生的偏差,并自然地生成了无法回答的问题。答案片段在报告的“发现”(Findings)和“印象”(Impressions)部分进行标注。该数据集旨在满足复杂的临床需求,包含完整且简洁的答案短语(不仅限于实体),且这些短语可跨越多行文本。我们对所提出的数据集进行了深入分析,探讨了标注中广泛存在的分歧类别(为理解人类标注错误提供了洞见),以及回答问题所需的推理类型(揭示了回答问题对医学知识的高度依赖性)。尽管先进的Transformer语言模型在测试集上取得了63.55的最高F1分数,但人类的最佳表现达到90.31(平均得分为84.52),这充分表明RadQA任务具有极高的挑战性,为未来方法研究留下了广阔的发展空间。

RadQA:用于提升放射科报告理解能力的问答数据集 | 最新论文 | HyperAI超神经