2ヶ月前
LLMベースのセクション識別子はオープンソースで優れた性能を発揮するが、実世界のアプリケーションではつまずく
Saranya Krishnamoorthy; Ayush Singh; Shabnam Tafreshi

要約
電子健康記録(EHR)は医療従事者にとって大きな利点となっていますが、日々複雑化し、長さも増しています。これらの長いEHRを検索することは負担となり、医師と患者の対話において煩雑な部分となっています。この一般的な問題を緩和するために、要約やセクション分けなどのいくつかの手法が提案されてきましたが、過去に真正に役立った手法は限られています。自動化手法の進展に伴い、機械学習(ML)がEHRにおける関連セクションの特定という課題を解決する有望な手段として示されています。しかし、ほとんどのML手法はラベル付きデータに依存しており、医療分野ではその取得が困難です。一方で、大規模言語モデル(LLM)は自然言語処理(NLP)において印象的な成果を上げており、特にゼロショット設定(つまり、ラベル付きデータなしで)でも優れた性能を発揮しています。これを受け、我々はLLMを使用して関連セクションヘッダーを特定することを提案します。GPT-4はゼロショットおよびファーソット設定において効果的に課題を解決できることを確認しました。また、最先端の手法よりも大幅に優れたセグメンテーション性能も示しました。さらに、我々はより難易度の高い実世界データセットをアノテーションし、GPT-4が良好な性能を発揮できないことを明らかにしました。これはさらなる研究とより厳しいベンチマークが必要であることを示唆しています。