17日前

精神疾患フォーラムデータを用いた統合失調症の症状および日常生活への影響に関する質疑応答モデル

Christian Internò, Eloisa Ambrosini
精神疾患フォーラムデータを用いた統合失調症の症状および日常生活への影響に関する質疑応答モデル
要約

近年、機械学習技術を活用した医療データの掘削に強い関心が寄せられている。一般的な課題として、研究課題に関連する内容を含み、ノイズのないテキストドキュメントのセットを取得し、特定の医学分野向けの質問応答(QA)モデルを開発することが挙げられる。本論文の目的は、特定疾患領域における症状の分析および日常生活への影響を対象とした、医療データセットの構築およびQAモデルの実装に関する新しい手法を提示することにある。対象として「精神健康(Mental Health)」フォーラムを用い、統合失調症や他の精神疾患に苦しむ人々を対象としたオンラインコミュニティを活用した。活動的なユーザー(定期的に投稿するユーザー)の関連投稿を抽出することで、バイアスが少なく、個人情報の問題を伴わないコンテンツを取得する新たな手法を提案した。さらに、そのデータセットをQAデータセットに変換するための前処理プロセスの構築方法も示した。本研究では、Bidirectional Encoder Representations from Transformers(BERT)、DistilBERT、RoBERTa、およびBioBERTの各モデルを微調整し、F1スコア、エクサクトマッチ(Exact Match)、適合率(Precision)、再現率(Recall)を用いて評価した。精度の高い実験により、提案手法がQAモデル実装に適した高精度なデータセットを構築可能であることが実証された。特に、BioBERT QAモデルを微調整した結果、F1スコア0.885を達成し、精神疾患領域における既存の最先端モデルを上回る性能を示した。