7 个月前

计算机视觉

Rongsheng Wang Junying Chen Ke Ji Zhenyang Cai Shunian Chen Yunjin Yang Benyou Wang

摘要

近期在视频生成领域的进展展示了在开放域设置中的显著进步，然而医疗视频生成仍处于相对未开发的状态。医疗视频对于临床培训、教育和模拟等应用至关重要，不仅需要高视觉保真度，还必须严格保证医学准确性。然而，当前的模型在应用于医疗提示时，往往会产生不真实或错误的内容，这主要是由于缺乏大规模、高质量且专门针对医疗领域的数据集所致。为了解决这一问题，我们推出了MedVideoCap-55K，这是首个大规模、多样性和富含字幕的医疗视频生成数据集。该数据集包含超过55,000个精心挑选的片段，涵盖了现实世界中的各种医疗场景，为训练通用型医疗视频生成模型提供了坚实的基础。基于此数据集，我们开发了MedGen模型，在多个基准测试中，其在视觉质量和医学准确性方面均表现出色，不仅领先于开源模型，而且可与商业系统相媲美。我们希望我们的数据集和模型能够成为宝贵的资源，并进一步推动医疗视频生成领域的研究。我们的代码和数据可在https://github.com/FreedomIntelligence/MedGen 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

Rongsheng Wang Junying Chen Ke Ji Zhenyang Cai Shunian Chen Yunjin Yang Benyou Wang

摘要

近期在视频生成领域的进展展示了在开放域设置中的显著进步，然而医疗视频生成仍处于相对未开发的状态。医疗视频对于临床培训、教育和模拟等应用至关重要，不仅需要高视觉保真度，还必须严格保证医学准确性。然而，当前的模型在应用于医疗提示时，往往会产生不真实或错误的内容，这主要是由于缺乏大规模、高质量且专门针对医疗领域的数据集所致。为了解决这一问题，我们推出了MedVideoCap-55K，这是首个大规模、多样性和富含字幕的医疗视频生成数据集。该数据集包含超过55,000个精心挑选的片段，涵盖了现实世界中的各种医疗场景，为训练通用型医疗视频生成模型提供了坚实的基础。基于此数据集，我们开发了MedGen模型，在多个基准测试中，其在视觉质量和医学准确性方面均表现出色，不仅领先于开源模型，而且可与商业系统相媲美。我们希望我们的数据集和模型能够成为宝贵的资源，并进一步推动医疗视频生成领域的研究。我们的代码和数据可在https://github.com/FreedomIntelligence/MedGen 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供