Command Palette

Search for a command to run...

19 天前

基于节点的多模态生成:文本、音频、图像与视频

Alexander Htet Kyaw Lenin Ravindranath Sivalingam

基于节点的多模态生成:文本、音频、图像与视频

摘要

我们提出了一种基于节点的叙事生成系统,用于多模态内容创作。该系统将故事表示为节点图谱,用户可通过直接编辑和自然语言提示对节点进行扩展、修改与迭代优化。每个节点均可整合文本、图像、音频和视频,使创作者能够构建多模态叙事。系统配备任务选择代理,可自动调度至不同的专用生成任务,分别负责故事生成、节点结构推理、节点图示格式化以及上下文生成。界面支持对单个节点的精准编辑、支持并行叙事线的自动分支,以及基于节点的迭代优化。实验结果表明,基于节点的编辑方式能够有效控制叙事结构,并实现文本、图像、音频与视频的迭代生成。我们报告了自动故事大纲生成的定量评估结果,并提供了对编辑工作流的定性观察。最后,我们讨论了当前存在的局限性,如长篇叙事的可扩展性以及跨多个节点的一致性问题,并展望了未来在“人机协同”与以用户为中心的创意人工智能工具方面的研究方向。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于节点的多模态生成:文本、音频、图像与视频 | 论文 | HyperAI超神经