奥德赛新AI模型打造3D互动世界——皮克斯联合创始人支持的互动AI世界现已开放体验
初创公司Odyssey由自动驾驶领域的先驱Oliver Cameron和Jeff Hawke联合创立,近期开发了一种AI模型,允许用户与流媒体视频进行交互。这款早期演示的AI模型每40毫秒生成并传输一帧视频,用户可以通过基本控制在视频中自由探索,体验类似于3D 渲染游戏的互动方式。 Odyssey的模型基于当前的世界状态、输入操作以及历史状态和动作,预测下一时刻世界的状态。为了实现这一点,Odyssey研发了一个新的世界模型,具备生成逼真的像素、维持空间一致性、从视频中学习动作以及输出长达5分钟以上的连贯视频流等能力。该技术有望在娱乐、广告、教育、培训、旅行等领域发挥重要作用,使视频内容变得更加互动且富有创新性。 然而,这项技术也引起了一些创意专业人士的关注和担忧。据《Wired》杂志的一项调查发现,包括Activision Blizzard在内的游戏工作室正在利用AI削减成本,应对员工流失问题。2024年,由代表好莱坞动画师和漫画家的动画公会委托的一项研究显示,未来几个月美国电影、电视和动画行业的超过10万名员工可能会受到AI的冲击。 面对这样的局面,Odyssey表示他们并不打算取代创作人员,而是希望与其合作,共同开拓新的娱乐形式。“互动视频不仅能够生成并探索故事,还能够摆脱传统制作的成本和限制,未来我们相信所有的视频形式——娱乐、广告、教育、培训、旅行等等都会进化为由Odyssey驱动的互动视频。” 尽管目前的演示版本仍存在模糊、失真和不稳定的问题,该公司承诺将进一步优化模型。Odyssey采用了一种与众不同的设计理念,即通过360度背包式摄像系统捕捉现实世界的景观,这种做法可能有助于生成更高质量的世界模型。目前,Odyssey已经在欧美地区使用Nvidia H100 GPU集群实现了最高30帧/秒的视频流传输,每“用户体验”小时的成本仅为1到2美元。此外,公司还正致力于扩展模型的动作范围,从简单的移动扩展到更多样的世界互动,从而更好地学习开放式动作。 Odyssey计划开发一款软件,让创作者可以将AI生成的场景导入Unreal Engine、Blender和Adobe After Effects等工具中进行手动编辑。这不仅有助于提高内容的质量,还可能吸引更多创意人才加入,共同推动互动视频技术的发展。 Pixar的联合创始人Ed Catmull目前担任Odyssey的董事会成员。他表示,虽然当前的图像质量还有待提升,但Odyssey处于这一领域研究的前沿,相关技术的改进将持续进行。Odyssey已经获得了包括EQT Ventures、GV和Air Street Capital在内的投资者共计2700万美元的投资。随着AI工具的快速发展,未来的互动视频有望克服现有技术障碍,实现更加成熟的应用。 世界模型是指一种通过AI技术模拟真实世界或虚拟环境的技术,近年来受到了多家初创企业和大型科技公司的关注,如DeepMind、World Labs、Microsoft和Decart。这些公司认为,世界模型有望在娱乐、教育和机器人训练等领域带来革命性的变化。尽管目前技术还在初级阶段,专家们普遍看好其未来的潜力。然而,对于创意专业人士来说,这一技术也带来了就业市场的不确定性和潜在挑战。Odyssey通过与创作者的合作,试图在技术创新和人机协作之间找到平衡,以推动互动视频技术的健康发展。