HyperAI超神经

腾讯混元发布全新功能——混元视频化身，这是一项能够将上传的照片和语音片段转化为真实动态视频的技术。用户只需简单上传一张照片和一段语音，该系统就能自动识别上下文、情绪及口型动作，生成高仿真的动画视频。这项技术的发布引人关注，因为它与谷歌旗下的Veo 3功能类似，但在开源性和本地运行能力上展现了独特的优势。混元视频化身基于多模态扩散Transformer（MM-DiT）架构开发，能够在生成过程中同时处理动态效果、情绪控制及多角色对话等功能。这一模型通过三个主要创新实现了技术突破：首先是“人物图像注入模块”。传统的人物添加方式经常会在训练与实际应用中产生不一致的问题，而此模块则避免了这一点，确保生成的人物外貌一致性更强，同时赋予其自然的表现力和流动感。这意味着即使是在不同的场景或背景下，生成的虚拟人物也能保持高度相似的外观特征，从而提高视频的真实度。其次是“音频情绪模块”（AEM），这个部分能够让AI更加精确地捕捉参考图像中的情感线索，并将其融合到所生成的视频当中，实现了对人物面部表情和肢体语言更加细腻的控制。例如，在输入了一张微笑的脸和一段兴奋的话语后，生成的视频会准确反映出说话人的愉悦心情。最后是“开放权重”的设计。与许多闭源的人工智能项目不同，混元团队选择了将模型以完全开放的形式提供给公众，使得有兴趣的研究人员和个人开发者可以在自己的高性能设备上快速安装并测试该软件，促进了技术在更广泛范围内的创新与发展。相比谷歌的Veo 3项目，虽然两者都具备从静态图片创建动态影像的能力，但混元视频化身允许用户无需依赖特定云端服务，只要拥有足够强大的硬件支持即可自行部署，这种灵活性让其在个人化和隐私保护方面占据了优势。此外，由于模型采用开放式架构，外界对于其内部工作原理有了更多的了解可能，这也意味着未来可能会有更多的优化与改进机会。目前，该技术已经被用于社交网络、娱乐内容创作等领域。用户可以通过混元视频化身，为自己创造个性化虚拟形象，用于在线交流或是作为创意视频中的角色。专家预测，随着此类技术的发展和完善，它们将在更多场景中发挥重要作用，如远程办公、在线教育等场合，为用户提供沉浸式的体验。腾讯是一家中国领先的互联网综合服务提供商之一，业务涵盖了社交媒体、数字娱乐、金融等多个领域。此次发布的混元视频化身是其在人工智能领域的又一重要成果，展示了公司在技术创新上的强大实力。此举不仅有助于提升用户体验，也将进一步增强其在全球市场上的竞争力。

相关链接

相关链接

相关链接

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

Command Palette

浑元推出生成式AI视频avatar

相关链接

Command Palette

浑元推出生成式AI视频avatar

相关链接

Command Palette

浑元推出生成式AI视频avatar

相关链接

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间

验证周期缩短 40 倍，密歇根大学等提出电池寿命预测新方法，「发现学习」节省 98% 评估时间