Command Palette
Search for a command to run...

摘要
尽管专用的AI模型在视频生成或理解等单一任务上表现出色,但现实世界的应用场景往往需要复杂且迭代的多步骤工作流,综合多种能力。为弥合这一差距,我们提出UniVA——一个开源的、全功能的多智能体框架,专为下一代视频通用模型设计,能够将视频理解、分割、编辑与生成统一整合为连贯的工作流。UniVA采用“规划-执行”双智能体架构,实现高度自动化与主动式工作流程:规划智能体负责解析用户意图,并将其分解为结构化的视频处理步骤;执行智能体则通过基于MCP(Modular Component Protocol)的模块化工具服务器(支持分析、生成、编辑、跟踪等)完成具体操作。通过分层的多级记忆机制(包括全局知识、任务上下文及用户个性化偏好),UniVA实现了长周期推理、上下文连续性以及智能体间的高效通信,从而支持具备完整可追溯性的交互式、自我反思式视频创作。该架构使得以往难以实现的迭代式、任意条件驱动的视频工作流成为可能,例如:文本/图像/视频条件下的生成 → 多轮编辑 → 目标分割 → 组合式合成。此外,我们还推出了UniVA-Bench——一套涵盖理解、编辑、分割与生成等多个步骤的多阶段视频任务基准测试套件,用于严格评估此类智能体式视频系统。UniVA与UniVA-Bench均已全面开源,旨在推动下一代多模态AI系统在交互性、智能体驱动及通用视频智能领域的研究发展。(https://univa.online/)