HyperAIHyperAI

Command Palette

Search for a command to run...

Peak-Return Greedy Slicing

Peak-Return Greedy Slicing(简称 PRGS)是由来自山东大学、中国科学院、理想汽车、清华大学等研究团队共同提出的一种算法框架 。相关研究成果发表于论文 Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL,已被 ICLR 2026 接受。

PRGS 旨在通过时间步级别的显式轨迹划分来显著增强基于 Transformer 的离线强化学习(Offline RL)模型的经验拼接与重组能力 。针对现有方法往往仅依赖完整轨迹和最终回报,难以区分长轨迹中局部优劣片段的局限性,该框架通过三大核心机制(基于 MMD 的回报估计、贪婪切片策略、自适应历史截断),在时间步级别显式划分并提取高质量的子轨迹用于策略训练。实验表明,PRGS 显著增强了模型拼接高回报经验的能力,在多个复杂环境基准测试中,较原始基线算法平均提升了 15.8% 的性能。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供