Command Palette
Search for a command to run...
Lijun Liu Ruiyang Li Zhaocheng Liu Chenglin Zhu Chong Li Jiehan Cheng Qiang Ju Jian Xie

摘要
视觉信息提取(VIE)将非结构化的文档图像转换为如JSON等结构化格式,这对于医疗应用中的报告分析和在线咨询至关重要。传统方法依赖于光学字符识别(OCR)和语言模型,而端到端多模态模型则能够直接生成JSON文件。然而,特定领域的模式和高昂的标注成本限制了这些模型在医疗VIE中的有效性。我们基于强化学习与可验证奖励(RLVR)框架来应对这些挑战,仅使用100个标注样本。我们的方法确保了数据集的多样性,通过平衡精确率和召回率的奖励机制减少了幻觉现象并提高了字段覆盖率,并采用了创新的采样策略以增强推理能力。通过使用我们的RLVR方法对Qwen2.5-VL-7B进行微调,我们在医疗VIE任务上取得了最先进的性能,显著提升了F1值、精确率和召回率。尽管我们的模型在类似医疗数据集的任务中表现出色,但在不相似的任务中性能有所下降,这突显了领域特定优化的必要性。案例研究进一步证明了训练和推理过程中推理的价值对于VIE的重要性。