HyperAI超神经

SilVar-Med:一种用于医学影像中可解释异常检测的语音驱动视觉语言模型

Tan-Hanh Pham, Chris Ngo, Trong-Duong Bui, Minh Luu Quang, Tan-Huong Pham, Truong-Son Hy
发布日期: 4/23/2025
SilVar-Med:一种用于医学影像中可解释异常检测的语音驱动视觉语言模型
摘要

医学视觉语言模型在各种医疗应用中展示了巨大的潜力,包括医学影像描述和诊断辅助。然而,大多数现有的模型依赖于基于文本的指令,这限制了它们在实际临床环境中的实用性,尤其是在手术等场景中,基于文本的交互对于医生来说往往不切实际。此外,当前的医学影像分析模型通常缺乏对其预测背后全面的推理能力,这降低了它们在临床决策中的可靠性。鉴于医学诊断错误可能会带来改变人生的重大后果,迫切需要可解释且理性的医疗辅助工具。为了解决这些挑战,我们引入了一种端到端语音驱动的医学视觉语言模型(VLM),名为SilVar-Med。这是一种多模态医学影像助手,它将语音交互与视觉语言模型相结合,开创了基于语音通信的医学影像分析任务。此外,我们还专注于通过一个提出的推理数据集来解释每项医学异常预测背后的推理过程。通过广泛的实验,我们展示了端到端语音交互驱动的医学影像解释的概念验证研究。我们相信这项工作将通过促进更加透明、互动且临床上可行的诊断支持系统来推动医学人工智能领域的发展。我们的代码和数据集在SiVar-Med上公开提供。 原文术语标注: - Medical Visual Language Models (医学视觉语言模型, VLM) - medical image captioning (医学影像描述) - diagnostic assistance (诊断辅助) - text-based instructions (基于文本的指令) - comprehensive reasoning (全面的推理能力) - reasoning dataset (推理数据集) - proof-of-concept study (概念验证研究) - end-to-end speech interaction (端到端语音交互)