日期

8 个月前

组织

论文 URL

2507.22034

标签

UserBench 是由 Salesforce AI Research 团队和伊利诺伊大学厄巴纳-香槟分校的研究团队于 2025 年 7 月联合提出的，相关研究成果发表于论文「UserBench: An Interactive Gym Environment for User-Centric Agents」。

UserBench 是一个以用户为中心的基准，旨在评估智能体在多轮、偏好驱动的交互中的表现。在 UserBench 中，模拟用户会提供初始模糊的任务指令，随着时间的推移逐渐揭示偏好，并且通常是以隐含的方式。智能体必须主动澄清目标，解读微妙的线索，并通过适应性推理工具使用来取得成功。基于标准的 Gymnasium 框架，UserBench 提供了一种模块化、可扩展的设置，具有标准化的交互接口和稳定的工具使用后端，能够进行严格且可重复的评估。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

8 个月前

组织

论文 URL

2507.22034

标签

人工智能

机器学习

模型融合 Model Souping

Model Souping 可以通过对多个微调解的权重进行平均来生成更优的模型。

3 个月前

WorldGen

WorldGen 能够打造出几何统一、视觉丰富且实时渲染高效的世界。

3 个月前

思维引导的强化学习框架 Guided Thought Reinforcement

GTR 能在复杂视觉环境中引导模型推理，防止「思维崩溃」

2 个月前

部署中学习 Learning While Deploying

LWD 是一种舰队级离线到在线强化学习框架，使通用机器人持续收集经验并实现策略的自我进化。

2 个月前

稀疏化接码树 Decoding Tree Sketching

利用 GPU 并行性高效扩展解码树，实现推理路径的快速且可扩展的优化。

3 个月前

Peak-Return Greedy Slicing

PRGS 显著增强了离线强化学习模型拼接高回报经验的能力。

2 个月前

稠密检索器 Dense Retriever

稠密检索器负责从海量文档库中快速找出与查询语义最相关的段落，是检索增强生成系统的核心基础组件。

2 个月前

空间理论 Theory of Space

空间理论是指智能体通过主动探索在不完全信息环境中构建、更新并利用空间信念的能力框架。

2 个月前

均值速度策略 MVP

MVP 通过建模平均速度场，实现兼具高表达能力与计算极速的单步动作生成。

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

UserBench 基准

用 AI 构建 AI

HyperAI Newsletters

Command Palette

UserBench 基准

相关百科

模型融合 Model Souping

WorldGen

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

稀疏化接码树 Decoding Tree Sketching

Peak-Return Greedy Slicing

稠密检索器 Dense Retriever

空间理论 Theory of Space

均值速度策略 MVP

用 AI 构建 AI

HyperAI Newsletters

Command Palette

UserBench 基准

相关百科

模型融合 Model Souping

WorldGen

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

稀疏化接码树 Decoding Tree Sketching

Peak-Return Greedy Slicing

稠密检索器 Dense Retriever

空间理论 Theory of Space

均值速度策略 MVP

用 AI 构建 AI

HyperAI Newsletters

相关百科

模型融合 Model Souping

WorldGen

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

稀疏化接码树 Decoding Tree Sketching

Peak-Return Greedy Slicing

稠密检索器 Dense Retriever

空间理论 Theory of Space

均值速度策略 MVP

相关百科

模型融合 Model Souping

WorldGen

思维引导的强化学习框架 Guided Thought Reinforcement

部署中学习 Learning While Deploying

稀疏化接码树 Decoding Tree Sketching

Peak-Return Greedy Slicing

稠密检索器 Dense Retriever

空间理论 Theory of Space

均值速度策略 MVP