7 个月前

摘要

我们介绍了一个新的医学领域的机器理解数据集。该数据集包含临床病例报告，并附有约10万个关于这些病例的填空题查询。我们将几种基线模型和最先进的神经网络阅读器应用于该数据集，观察到最佳人类阅读器和机器阅读器之间的性能存在显著差距（F1分数为20%）。我们分析了成功回答问题所需的能力，并展示了阅读器性能如何因所涉及的能力而异。研究发现，使用领域知识进行推理和对象跟踪是最常需要的能力，而识别省略信息和时空推理则是机器最难掌握的能力。

源 PDF