HyperAIHyperAI

Command Palette

Search for a command to run...

6 天前
Agent
LLM

MemSlides:一种用于个性化幻灯片生成并支持多轮局部修订的分层记忆驱动 Agent 框架

Ye Jin Yangyang Xu Jun Zhu Yibo Yang

摘要

个性化演示文稿生成不仅需要基于当前提示词或模板进行条件控制:agents 必须在不同任务间保持稳定的用户偏好,在多轮修订过程中保留新引入的偏好与约束,并可靠地执行局部编辑。我们提出 MemSlides,一种面向个性化演示文稿 agents 的分层记忆框架,该框架将长期记忆与工作记忆分离,并进一步将长期记忆划分为用户档案记忆与工具记忆。用户档案记忆存储基于意图条件的档案,用于 round-0 个性化;工作记忆在多轮修订过程中承载活跃偏好与会话约束;工具记忆存储可复用的执行经验,以支持可靠的局部编辑。MemSlides 将此记忆设计与限定范围的幻灯片局部修订相结合,使得针对性更新仅作用于受影响的最小区域,而非反复重新生成整个演示文稿。在受控实验中,用户档案记忆提升了在多角色、多意图档案库上的角色一致性判断;工具记忆注入改善了诊断性配对设置下的闭环修改行为;定性案例展示了工作记忆的偏好延续能力。综上所述,这些结果表明,演示文稿创作中的有效个性化依赖于在生成与局部修订过程中分离持久化用户档案、会话级工作记忆以及可复用的执行经验。

一句话总结

MemSlides 是一种分层记忆驱动的 Agent 框架,它将长期用户画像和工具记忆与工作记忆分离,以在多轮修订中保持偏好。该方法支持作用域内的幻灯片局部编辑,仅针对受影响区域进行修改,而非重新生成整个演示文稿。实验表明,用户画像记忆在多角色、多意图的画像库上提升了角色一致性评估;工具记忆注入增强了诊断匹配对设置下的闭环修改能力;定性案例进一步证实了工作记忆在跨会话编辑中的偏好延续能力。

核心贡献

  • MemSlides 提出了一种用于个性化演示 Agent 的分层记忆框架,将长期记忆划分为用户画像和工具组件,同时为活跃会话约束维护独立的工作记忆。这种架构分离实现了跨任务偏好的稳定保持,并在多轮修订中可靠地保留新指令。
  • 该方法将记忆设计与作用域内的幻灯片局部修订相结合,允许针对性更新仅修改受影响的最小区域,而非反复重新生成完整演示文稿。该机制在迭代创作工作流中始终保持精确的编辑范围。
  • 受控实验表明,用户画像记忆在多角色、多意图画像库上提升了角色一致性评估,而工具记忆注入增强了诊断匹配对设置下的闭环修改行为。定性评估进一步证实了工作记忆在长编辑会话中延续偏好的能力。

引言

自动化演示文稿生成已发展为 Agent 系统,能够从自然语言提示中生成精美的幻灯片,显著降低了视觉沟通所需的时间与认知负担。尽管取得这些进展,现有系统难以实现持续的个人化,通常将用户偏好视为瞬时提示,并对每次编辑触发完整演示文稿的重新生成,导致多轮修订上下文负担重且脆弱。为了解决这些局限,作者开发了 MemSlides,该框架将作用域内的幻灯片局部性用于针对性多轮编辑,并与分层记忆架构相结合。通过明确将长期用户画像与执行记忆同短期工作记忆分离,该系统跨会话累积个人化样式与组织偏好,从而在不过度消耗上下文约束的情况下,实现精确的个人化幻灯片生成与修订。

数据集

  • 组成与来源: 作者构建了一个受控的画像库,包含 30 个角色-意图条目,由 10 种职业风格角色和每个角色的三个角色-意图桶组成。所有条目均通过受控的创作交互,从单一共享源材料生成。
  • 子集详情: 30 个条目中的每一个均作为长期记忆的读/写单元,捕获结构化字段,如幻灯片布局结构、首选图表类型和内容备注。这些角色涵盖多样化的职业,包括软件开发者、营销经理、医疗健康服务经理和立法者。
  • 使用与处理: 本文使用该画像库作为个性化幻灯片生成的固定记忆参考,而非传统训练数据集。在推理过程中,模型检索与当前角色和角色意图匹配的已完成画像条目,以指导输出生成。无注入基线使用相同的源材料但不注入画像记忆来评估性能。
  • 构建与过滤规则: 作者应用两阶段构建流程。首先,通过在源材料上使用角色-意图变化提示模型来生成初始画像证据。其次,运行种子补全步骤,使用稳定的角色提示、基于职业的偏好注册表和现有信号填充稀疏字段。此步骤严格遵循仅填充空字段的规则,保留现有的意图特定数据,过滤掉如页数限制等通用约束,并附加溯源标签以追踪每个字段是否源自种子提示、注册表或当前画像信号。该过程明确避免创建合成交互片段或模板使用记录。

方法

作者提出了 MemSlides,这是一种分层记忆框架,旨在将个性化演示文稿生成视为状态化的多轮创作过程,而非一次性转换任务。系统通过 S0=Ginit(x,Pu,τ)S _ { 0 } = G _ { \mathrm { i n i t } } ( x , P _ { u } , \tau )S0=Ginit(x,Pu,τ) 初始化演示文稿,其中 xxx 代表源材料,PuP_uPu 存储长期用户偏好,τ\tauτ 提供任务特定模板。后续的修订周期基于由以下公式定义的状态更新机制运行:

zt=U(zt1,ft;St1),St=Gedit(St1,x,Pu,τ,zt),t1.z _ { t } = U ( z _ { t - 1 } , f _ { t } ; S _ { t - 1 } ) , \qquad S _ { t } = G _ { \mathrm { e d i t } } ( S _ { t - 1 } , x , P _ { u } , \tau , z _ { t } ) , \quad t \geq 1 .zt=U(zt1,ft;St1),St=Gedit(St1,x,Pu,τ,zt),t1.

该公式按时间范围明确分离个性化信号,以防止上下文漂移并保留已对齐的内容。

该架构将记忆划分为长期层与工作层。长期记忆进一步划分为用户画像记忆和工具记忆。用户画像记忆存储意图条件偏好,例如视觉样式、布局习惯和内容密度。框架不将这些偏好作为静态提示块注入,而是在每个会话开始时将兼容项路由至活跃临时记忆。活跃状态通过 At=U(At1,rt)A _ { t } = \mathcal { U } ( A _ { t - 1 } , r _ { t } )At=U(At1,rt) 随修订轮次演进,其中更新操作符追加新暴露的偏好、解决明确冲突,并保留无冲突约束。稳定的交互信号仅在任务完成时合并回长期画像,以过滤掉临时请求。

同时,工具记忆管理局部编辑的执行可靠性。该框架在两个时间粒度上构建此组件,表示为 Mt,ktool=(Etround,Et,kop)\mathcal { M } _ { t , k } ^ { \mathrm { t o o l } } = \big ( E _ { t } ^ { \mathrm { r o u n d } } , E _ { t , k } ^ { \mathrm { o p } } \big )Mt,ktool=(Etround,Et,kop)。轮次范围经验在修改轮次间缓冲任务级执行模式,而操作范围经验将原始推理和工具观察链分割为索引片段。在后续类似的工具调用前检索这些片段,以最小化回溯和重复误用。可转移的执行模式同样在每次会话后合并至长期存储。

工作记忆作为会话范围的状态层,协调受限的“规划-执行-守卫”执行周期。工作记忆追踪活跃约束、已解决目标和覆盖状态,将每次修订请求转化为明确的执行契约。规划阶段定义推断的作用域、目标幻灯片路径和活跃规则标识符。执行阶段选择合适的编辑工具,优先处理共享选择器的批量 CSS 更新、通用语义的语义批量样式,或单张幻灯片修改的布局优先补丁操作。守卫阶段通过将补丁绑定至快照内容哈希值来强制完成状态为已检查,并在所有目标区域验证完成前阻止过早的最终化。这种受限执行方法确保局部更新在最小有效作用域内运行,同时在修订轮次间保持会话级偏好延续。

实验

评估通过受控的角色一致性判断和诊断匹配对编辑协议来检验 MemSlides,以验证其个性化演示文稿生成与精确多轮修订的能力。研究结果表明,集成用户画像记忆显著增强了内容、结构与目标角色的对齐程度,同时保持标准演示质量,因为该系统利用长期偏好进行战略性页面组织,而非表面化的模板匹配。此外,工具记忆注入实现了高度针对性的局部编辑,最大限度地减少意外修改并简化修订工作流。最终,实验表明,记忆增强生成可靠地平衡了个性化内容交付与高效、精确的幻灯片修改。

作者使用诊断匹配对设置评估工具记忆注入对局部演示文稿修订的影响。结果表明,工具记忆提升了整体可靠性与验证准确性,同时显著降低了核心工具操作所需时间。尽管闭环完成和首次编辑延迟的改进方向有利,但统计显著性主要在严格验证和核心工具时间效率上确立。工具记忆注入在严格验证和核心工具时间比例上带来统计显著性改进。闭环完成和首次编辑延迟显示方向性有利,但缺乏强有力的配对统计证据。与无注入基线相比,该系统实现了更可靠的局部编辑,且非检查工具工作量更少。

作者评估了十种不同职业角色的角色一致性,并将该方法与基线进行比较。结果表明,所提方法在所有评估维度(包括总体、内容、结构、视觉和特异性)上普遍得分高于基线。特定角色的内容与视觉类别改进尤为显著,表明系统能有效定制演示元素以匹配目标用户画像。所提方法在大多数角色和评估指标上表现出优越性能,内容与视觉类别获得显著的相对提升。结构与特异性的改进表明,系统成功利用长期画像确定页面组织与布局适配,而非仅依赖模板匹配。对于需要独特证据选择或叙事组织的角色(如平面设计师和高校教师),性能优势最为明显。

作者表明,早期任务的局部反馈线索被泛化为后续演示文稿的可重用组织模式。这些模式包括结构化表格、责任方案和实施清单,并在多个任务间持久存在。结果表明,系统成功将具体编辑指令转化为一致的结构模板,以维持长期的连贯性。局部反馈线索在重复任务中合并为可重用的幻灯片组织模式。具体偏好演变为结构化表格和责任方案,供未来使用。系统保持一致的结构模板,确保连贯的长期演示文稿生成。

MemSlides 框架在多个大语言模型上,与 DeepPresenter 和 SlideTailor 相比,在角色一致性方面表现出优越性能。在 GLM-5 和 Gemini 3.1 Pro 上,它在内容、结构、视觉呈现和特异性方面取得最高分。尽管 GPT-5 在结构和视觉指标上为基线模型显示孤立优势,但 MemSlides 在内容与特异性上保持领先。MemSlides 在 GLM-5 和 Gemini 3.1 Pro 的所有四个对齐维度上均取得最高分。对于 GPT-5,MemSlides 在内容与特异性上领先,而基线模型在结构与视觉指标上显示孤立优势。所提方法在所有测试模型的内容和特异性方面持续优于 SlideTailor 和 DeepPresenter。

实验评估了不同模型系列的整体演示质量,表明所提方法在保持竞争力的同时,在特定领域表现优异。MemSlides 在 GPT-5 上取得最高平均质量得分,并在 Gemini 3.1 Pro 的视觉风格与多样性上领先。尽管在 GPT-5 上表现出强约束遵循能力,但在其他模型上相较于基线模型遵循度较低。MemSlides 在 GPT-5 上取得最高平均质量得分,并在 Gemini 3.1 Pro 的风格与多样性上领先。该方法在所有模型系列中保持具有竞争力的内容得分,通常超越基线系统。约束遵循能力在 GPT-5 上最强,但在 Gemini 3.1 Pro 和 GLM-5 上低于基线模型。

实验评估针对既定基线,检验了框架的编辑效率、角色一致性、反馈合并与跨模型性能。结果表明,工具记忆注入显著提高了验证可靠性并降低了操作开销,同时将局部反馈有效转化为一致、可重用的结构模板。通过利用长期用户画像,系统成功将内容与视觉组织定制为多样化的职业角色,并在重复任务中保持连贯性。在多个大语言模型上,该方法在内容相关性、特异性与整体演示质量方面持续优于竞争方法,凸显了其强大的适应性与长期生成能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供