HyperAI超神经
2 days ago

MedGen:通过扩展细粒度标注的医学视频来解锁医学视频生成

Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang
MedGen:通过扩展细粒度标注的医学视频来解锁医学视频生成
摘要

近期在视频生成领域的进展展示了在开放域设置中的显著进步,然而医疗视频生成仍处于相对未开发的状态。医疗视频对于临床培训、教育和模拟等应用至关重要,不仅需要高视觉保真度,还必须严格保证医学准确性。然而,当前的模型在应用于医疗提示时,往往会产生不真实或错误的内容,这主要是由于缺乏大规模、高质量且专门针对医疗领域的数据集所致。为了解决这一问题,我们推出了MedVideoCap-55K,这是首个大规模、多样性和富含字幕的医疗视频生成数据集。该数据集包含超过55,000个精心挑选的片段,涵盖了现实世界中的各种医疗场景,为训练通用型医疗视频生成模型提供了坚实的基础。基于此数据集,我们开发了MedGen模型,在多个基准测试中,其在视觉质量和医学准确性方面均表现出色,不仅领先于开源模型,而且可与商业系统相媲美。我们希望我们的数据集和模型能够成为宝贵的资源,并进一步推动医疗视频生成领域的研究。我们的代码和数据可在https://github.com/FreedomIntelligence/MedGen 获取。