摘要
自动医学文本分类有助于医生高效管理患者信息。通过对患者症状描述等文本信息进行分类,医生能够快速定位关键信息,加快诊断流程,提供更优质的医疗建议,并有效推动智能诊断与医疗自动化问答服务的发展。本文针对第九届中国健康信息处理大会(CHIP 2023)开放共享任务中的医学文本分类问题,提出了一种解决方案。该任务的主要挑战在于文本间复杂的语义关系。为此,本文提出一种模型集成方法,通过三种不同子模型之间的互补关系,有效提升医学文本分类性能。此外,该方案还引入外部工具,针对难以分类的困难样本实施定向数据增强,以降低误分类率。最终分类结果通过各模型的投票机制融合获得。实验结果表明,所提方法在测试集上达到了92%的准确率,充分验证了该模型的有效性。