
摘要
我们介绍了一个新的医学领域的机器理解数据集。该数据集包含临床病例报告,并附有约10万个关于这些病例的填空题查询。我们将几种基线模型和最先进的神经网络阅读器应用于该数据集,观察到最佳人类阅读器和机器阅读器之间的性能存在显著差距(F1分数为20%)。我们分析了成功回答问题所需的能力,并展示了阅读器性能如何因所涉及的能力而异。研究发现,使用领域知识进行推理和对象跟踪是最常需要的能力,而识别省略信息和时空推理则是机器最难掌握的能力。
我们介绍了一个新的医学领域的机器理解数据集。该数据集包含临床病例报告,并附有约10万个关于这些病例的填空题查询。我们将几种基线模型和最先进的神经网络阅读器应用于该数据集,观察到最佳人类阅读器和机器阅读器之间的性能存在显著差距(F1分数为20%)。我们分析了成功回答问题所需的能力,并展示了阅读器性能如何因所涉及的能力而异。研究发现,使用领域知识进行推理和对象跟踪是最常需要的能力,而识别省略信息和时空推理则是机器最难掌握的能力。