Command Palette
Search for a command to run...
{Kirk Roberts Atieh Pajouhi Meghana Gudala Sarvesh Soni}

要約
本稿では、放射線科レポートを対象に、医師によって正解の範囲(answer span)が付与された3,074の質問を含む、放射線科向け質問応答データセット「RadQA」を提示する。このデータセットは、合計6,148の質問-回答エビデンスペアを構成している。質問は、レポートの「臨床的依頼(clinical referral)」セクションをもとに手作業で作成されており、依頼医の実際の情報ニーズを反映するとともに、回答文脈を事前に見ることによるバイアスを排除している。さらに、自然に回答不可能な質問も生成される。正解の範囲は、レポートの「所見(Findings)」および「総合所見(Impressions)」セクション内にマークされている。本データセットは、複雑な臨床要件を満たすために、単なる固有表現(entity)にとどまらず、複数行にまたがる完全かつ簡潔な回答フレーズを含むように設計されている。本研究では、アノテーションの不一致の広範なカテゴリを分析することで、人間の誤りに関する知見を明らかにするとともに、質問に回答するための推論要件を検討し、質問の回答に膨大な医学知識の依存性が存在することを明らかにした。最先端のTransformerベース言語モデルはテストセットにおいて最高F1スコア63.55を達成したが、最良の人的性能は90.31(平均84.52)であった。この結果は、RadQAが極めて高い難易度を有しており、今後の手法研究に大きな余地を残していることを示している。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| reading-comprehension-on-radqa | BERT pretrained on MIMIC-III | Answer F1: 63.55 |