2 个月前

基于LLM的章节标识符在开源环境中表现出色,但在实际应用中却遇到困难。

Saranya Krishnamoorthy; Ayush Singh; Shabnam Tafreshi
基于LLM的章节标识符在开源环境中表现出色,但在实际应用中却遇到困难。
摘要

电子健康记录(EHR)虽然为医疗保健从业者带来了便利,但其复杂性和长度却在不断增加。浏览这些冗长的EHR不仅耗时费力,还成为医生与患者互动中的一个繁琐环节。为了缓解这一普遍问题,已提出多种方法,通过总结或分段来简化EHR,但过去真正有效的方案并不多。随着自动化方法的兴起,机器学习(ML)在识别EHR中相关部分的任务上展现出潜力。然而,大多数ML方法依赖于标注数据,而在医疗保健领域获取这类数据非常困难。相比之下,大型语言模型(LLMs)在自然语言处理(NLP)方面取得了令人印象深刻的成绩,且能够在零样本情况下运行,即无需任何标注数据。为此,我们提出使用LLMs来识别相关的节标题。研究发现,GPT-4在零样本和少样本设置下均能有效解决该任务,并且其分段效果显著优于现有最先进方法。此外,我们还对一个更具挑战性的实际数据集进行了标注,并发现GPT-4的表现不尽如人意,这表明需要进一步的研究和更严格的基准测试。

基于LLM的章节标识符在开源环境中表现出色,但在实际应用中却遇到困难。 | 最新论文 | HyperAI超神经