Command Palette
Search for a command to run...
Peak-Return Greedy Slicing
Peak-Return Greedy Slicing(简称 PRGS)是由来自山东大学、中国科学院、理想汽车、清华大学等研究团队共同提出的一种算法框架 。相关研究成果发表于论文 Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL,已被 ICLR 2026 接受。
PRGS 旨在通过时间步级别的显式轨迹划分来显著增强基于 Transformer 的离线强化学习(Offline RL)模型的经验拼接与重组能力 。针对现有方法往往仅依赖完整轨迹和最终回报,难以区分长轨迹中局部优劣片段的局限性,该框架通过三大核心机制(基于 MMD 的回报估计、贪婪切片策略、自适应历史截断),在时间步级别显式划分并提取高质量的子轨迹用于策略训练。实验表明,PRGS 显著增强了模型拼接高回报经验的能力,在多个复杂环境基准测试中,较原始基线算法平均提升了 15.8% 的性能。