日期

3 个月前

组织

论文 URL

标签

Peak-Return Greedy Slicing（简称 PRGS）是由来自山东大学、中国科学院、理想汽车、清华大学等研究团队共同提出的一种算法框架。相关研究成果发表于论文 Peak-Return Greedy Slicing: Subtrajectory Selection for Transformer-Based Offline RL，已被 ICLR 2026 接受。

PRGS 旨在通过时间步级别的显式轨迹划分来显著增强基于 Transformer 的离线强化学习（Offline RL）模型的经验拼接与重组能力。针对现有方法往往仅依赖完整轨迹和最终回报，难以区分长轨迹中局部优劣片段的局限性，该框架通过三大核心机制（基于 MMD 的回报估计、贪婪切片策略、自适应历史截断），在时间步级别显式划分并提取高质量的子轨迹用于策略训练。实验表明，PRGS 显著增强了模型拼接高回报经验的能力，在多个复杂环境基准测试中，较原始基线算法平均提升了 15.8% 的性能。

空间理论 Theory of Space

空间理论是指智能体通过主动探索在不完全信息环境中构建、更新并利用空间信念的能力框架。

3 个月前

稠密检索器 Dense Retriever

稠密检索器负责从海量文档库中快速找出与查询语义最相关的段落，是检索增强生成系统的核心基础组件。

3 个月前

光学字符识别 OCR

OCR 将图片中的文字转化为可编辑文本，是文档数字化与信息自动化提取的核心基石。

2 天前

部署中学习 Learning While Deploying

LWD 是一种舰队级离线到在线强化学习框架，使通用机器人持续收集经验并实现策略的自我进化。

2 个月前

思维引导的强化学习框架 Guided Thought Reinforcement

GTR 能在复杂视觉环境中引导模型推理，防止「思维崩溃」

3 个月前

遥感 Remote Sensing

解析卫星与无人机图像以监测地表和环境，实现非接触式的地理空间理解与地球宏观观测。

2 天前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

日期

3 个月前

组织

论文 URL

标签

空间理论 Theory of Space

空间理论是指智能体通过主动探索在不完全信息环境中构建、更新并利用空间信念的能力框架。

3 个月前

稠密检索器 Dense Retriever

稠密检索器负责从海量文档库中快速找出与查询语义最相关的段落，是检索增强生成系统的核心基础组件。

3 个月前

光学字符识别 OCR

OCR 将图片中的文字转化为可编辑文本，是文档数字化与信息自动化提取的核心基石。

2 天前

部署中学习 Learning While Deploying

LWD 是一种舰队级离线到在线强化学习框架，使通用机器人持续收集经验并实现策略的自我进化。

2 个月前

思维引导的强化学习框架 Guided Thought Reinforcement

GTR 能在复杂视觉环境中引导模型推理，防止「思维崩溃」

3 个月前

遥感 Remote Sensing

解析卫星与无人机图像以监测地表和环境，实现非接触式的地理空间理解与地球宏观观测。

2 天前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

用 AI 构建 AI

HyperAI Newsletters

相关百科

空间理论 Theory of Space

稠密检索器 Dense Retriever

光学字符识别 OCR

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

遥感 Remote Sensing

用 AI 构建 AI

HyperAI Newsletters

相关百科

空间理论 Theory of Space

稠密检索器 Dense Retriever

光学字符识别 OCR

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

遥感 Remote Sensing

用 AI 构建 AI

HyperAI Newsletters

相关百科

空间理论 Theory of Space

稠密检索器 Dense Retriever

光学字符识别 OCR

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

遥感 Remote Sensing

相关百科

空间理论 Theory of Space

稠密检索器 Dense Retriever

光学字符识别 OCR

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

遥感 Remote Sensing

Command Palette

Peak-Return Greedy Slicing

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Peak-Return Greedy Slicing

相关百科

空间理论 Theory of Space

稠密检索器 Dense Retriever

光学字符识别 OCR

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

遥感 Remote Sensing

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Peak-Return Greedy Slicing

相关百科

空间理论 Theory of Space

稠密检索器 Dense Retriever

光学字符识别 OCR

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

遥感 Remote Sensing

用 AI 构建 AI

HyperAI Newsletters

相关百科

空间理论 Theory of Space

稠密检索器 Dense Retriever

光学字符识别 OCR

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

遥感 Remote Sensing

相关百科

空间理论 Theory of Space

稠密检索器 Dense Retriever

光学字符识别 OCR

部署中学习 Learning While Deploying

思维引导的强化学习框架 Guided Thought Reinforcement

遥感 Remote Sensing