4ヶ月前

ディープラーニング

ロボティクス

アプローチ／フレームワーク

Duan Yan Chen Xi Houthooft Rein Schulman John Abbeel Pieter

概要

近年、深層学習を用いた特徴表現の学習と強化学習を統合する分野において、研究者は顕著な進展を遂げている。代表的な例として、原始的な画素データに基づいてアタリゲームをプレイするエージェントの学習や、原始的な感覚入力を利用して高度な操作スキルを習得するエージェントの開発が挙げられる。しかしながら、連続的制御分野における進展を定量的に評価するための共通のベンチマークが存在しないため、その進展を測ることが困難であった。本研究では、カートポールのスイングアップといった古典的タスク、3次元ヒューマノイドの歩行といった状態空間および行動空間の次元が極めて高いタスク、部分観測を伴うタスク、階層構造を持つタスクを含む、連続的制御タスクのベンチマークセットを提示する。本研究では、実装された複数の強化学習アルゴリズムを体系的に評価し、新たな知見を報告する。本ベンチマークおよび参照実装は、https://github.com/rllab/rllab にて公開されており、実験の再現性を促進し、他の研究者による採用を推進することを目的としている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

4ヶ月前

ディープラーニング

ロボティクス

アプローチ／フレームワーク

Duan Yan Chen Xi Houthooft Rein Schulman John Abbeel Pieter

概要

近年、深層学習を用いた特徴表現の学習と強化学習を統合する分野において、研究者は顕著な進展を遂げている。代表的な例として、原始的な画素データに基づいてアタリゲームをプレイするエージェントの学習や、原始的な感覚入力を利用して高度な操作スキルを習得するエージェントの開発が挙げられる。しかしながら、連続的制御分野における進展を定量的に評価するための共通のベンチマークが存在しないため、その進展を測ることが困難であった。本研究では、カートポールのスイングアップといった古典的タスク、3次元ヒューマノイドの歩行といった状態空間および行動空間の次元が極めて高いタスク、部分観測を伴うタスク、階層構造を持つタスクを含む、連続的制御タスクのベンチマークセットを提示する。本研究では、実装された複数の強化学習アルゴリズムを体系的に評価し、新たな知見を報告する。本ベンチマークおよび参照実装は、https://github.com/rllab/rllab にて公開されており、実験の再現性を促進し、他の研究者による採用を推進することを目的としている。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています