HyperAIHyperAI

Command Palette

Search for a command to run...

PubMedQA:バイオメディカル研究における質問応答のためのデータセット

Qiao Jin Bhuwan Dhingra Zhengping Liu William W. Cohen Xinghua Lu

概要

本稿では、PubMedの要約から収集された新しい生物医学分野向け質問応答(QA)データセット「PubMedQA」を紹介する。PubMedQAのタスクは、関連する要約を用いて「はい/いいえ/分からない」のいずれかで答える研究課題(例:冠動脈バイパス手術後の心房細動を術前ステータチンが減少させるか?)に答えることである。PubMedQAには、専門家がアノテーションした1,000件のデータ、ラベルのない61.2万件のデータ、および人工的に生成された21.13万件のQAインスタンスが含まれる。各PubMedQAインスタンスは以下の4つの要素で構成される:(1)既存の研究論文の題名そのもの、またはその題名から導出された質問、(2)結論を除いた対応する要約(コンテキスト)、(3)要約の結論部分である長文の答え(長回答)、および(4)結論を要約した「はい/いいえ/分からない」の答え。PubMedQAは、特に定量的データを含む生物医学研究本文を推論する必要がある初めてのQAデータセットである。本研究で最も高い性能を示したモデルは、長回答のBag-of-Words統計を追加の教師信号として用いたBioBERTの多段階ファインチューニングであり、68.1%の精度を達成した。これは、人間の単一評価者による精度78.0%、多数派ベースラインの55.2%と比較して、まだ大幅な改善余地があることを示している。PubMedQAは、以下のURLから公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています