HyperAI
Command Palette
Search for a command to run...
强化学习 Reinforcement Learning
日期
3 年前
Search for a command to run...
日期
强化学习是机器学习的重要分支,也是多学科领域的交叉产物,其本质是解决 Decision Making 问题,即实现自动决策且可做连续决策。
强化学习主要包含四个元素:Agent 、环境状态、行为、奖励,其目标是获得最多的累计奖励。
从元素的角度进行分类,方法主要有以下几种:
Search for a command to run...
日期
强化学习是机器学习的重要分支,也是多学科领域的交叉产物,其本质是解决 Decision Making 问题,即实现自动决策且可做连续决策。
强化学习主要包含四个元素:Agent 、环境状态、行为、奖励,其目标是获得最多的累计奖励。
从元素的角度进行分类,方法主要有以下几种:
GTR 能在复杂视觉环境中引导模型推理,防止「思维崩溃」
一种将训练数据保留在本地设备,仅通过汇总本地计算的模型更新来训练共享全局模型的去中心化机器学习方法 。
LWD 是一种舰队级离线到在线强化学习框架,使通用机器人持续收集经验并实现策略的自我进化。
MVP 通过建模平均速度场,实现兼具高表达能力与计算极速的单步动作生成。
Skills 是封装知识与流程的可复用能力模块,使 AI 从通用模型转变为专业智能体
WAM 是一种面向具身智能与机器人领域的新型 AI 基础模型架构。
GTR 能在复杂视觉环境中引导模型推理,防止「思维崩溃」
一种将训练数据保留在本地设备,仅通过汇总本地计算的模型更新来训练共享全局模型的去中心化机器学习方法 。
LWD 是一种舰队级离线到在线强化学习框架,使通用机器人持续收集经验并实现策略的自我进化。
MVP 通过建模平均速度场,实现兼具高表达能力与计算极速的单步动作生成。
Skills 是封装知识与流程的可复用能力模块,使 AI 从通用模型转变为专业智能体
WAM 是一种面向具身智能与机器人领域的新型 AI 基础模型架构。