日期

7 个月前

组织

论文 URL

标签

Mem-𝛼 是由 Anuttacon 、加利福尼亚大学圣迭戈分校联合斯坦福大学研究团队于 2025 年 9 月提出的，相关研究成果发表于论文 Mem-α: Learning Memory Construction via Reinforcement Learning 。

Mem-𝛼 是一个通过交互和反馈训练代理有效管理复杂记忆系统的强化学习框架，与现有方法不同，该框架使智能体能够学习用于复杂、多组件记忆架构的记忆构建策略。首先，研究人员将记忆构建过程表述为一个序列决策问题，其中智能体处理信息块，决定执行哪些记忆操作，并根据整个交互历史中的下游问答准确度获得多个奖励。其次构建了一个涵盖多种多轮交互模式的专门训练数据集，包括对话、文档共享、模式识别和故事讲述，并配以需要全面记忆才能正确回答的综合评估问题。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

7 个月前

组织

论文 URL

2509.25911

标签

人工智能

稀疏化接码树 Decoding Tree Sketching

利用 GPU 并行性高效扩展解码树，实现推理路径的快速且可扩展的优化。

3 个月前

思维引导的强化学习框架 Guided Thought Reinforcement

GTR 能在复杂视觉环境中引导模型推理，防止「思维崩溃」

2 个月前

部署中学习 Learning While Deploying

LWD 是一种舰队级离线到在线强化学习框架，使通用机器人持续收集经验并实现策略的自我进化。

2 个月前

WorldGen

WorldGen 能够打造出几何统一、视觉丰富且实时渲染高效的世界。

3 个月前

稠密检索器 Dense Retriever

稠密检索器负责从海量文档库中快速找出与查询语义最相关的段落，是检索增强生成系统的核心基础组件。

2 个月前

模型融合 Model Souping

Model Souping 可以通过对多个微调解的权重进行平均来生成更优的模型。

3 个月前

空间理论 Theory of Space

空间理论是指智能体通过主动探索在不完全信息环境中构建、更新并利用空间信念的能力框架。

2 个月前

Peak-Return Greedy Slicing

PRGS 显著增强了离线强化学习模型拼接高回报经验的能力。

2 个月前

均值速度策略 MVP

MVP 通过建模平均速度场，实现兼具高表达能力与计算极速的单步动作生成。

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

强化学习框架 Mem-𝛼

用 AI 构建 AI

HyperAI Newsletters

Command Palette

强化学习框架 Mem-𝛼

相关百科

稀疏化接码树 Decoding Tree Sketching

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

WorldGen

稠密检索器 Dense Retriever

模型融合 Model Souping

空间理论 Theory of Space

Peak-Return Greedy Slicing

均值速度策略 MVP

用 AI 构建 AI

HyperAI Newsletters

Command Palette

强化学习框架 Mem-𝛼

相关百科

稀疏化接码树 Decoding Tree Sketching

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

WorldGen

稠密检索器 Dense Retriever

模型融合 Model Souping

空间理论 Theory of Space

Peak-Return Greedy Slicing

均值速度策略 MVP

用 AI 构建 AI

HyperAI Newsletters

相关百科

稀疏化接码树 Decoding Tree Sketching

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

WorldGen

稠密检索器 Dense Retriever

模型融合 Model Souping

空间理论 Theory of Space

Peak-Return Greedy Slicing

均值速度策略 MVP

相关百科

稀疏化接码树 Decoding Tree Sketching

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

WorldGen

稠密检索器 Dense Retriever

模型融合 Model Souping

空间理论 Theory of Space

Peak-Return Greedy Slicing

均值速度策略 MVP