Command Palette
Search for a command to run...
ピークリターン貪欲スライス
ピークリターングリーディスライシング(PRGS)は、山東大学、中国科学院、李オート、清華大学などの研究チームが共同で提案したアルゴリズムフレームワークです。関連する研究成果は[論文名不明]に掲載されています。 ピークリターングリーディスライシング:トランスフォーマーベースのオフライン強化学習におけるサブ軌道選択ICLR 2026に採択されました。
PRGSは、時間ステップレベルでの明示的な軌道分割を通じて、Transformerベースのオフライン強化学習(Offline RL)モデルの経験結合および再編成機能を大幅に強化することを目的としています。既存の手法は、多くの場合、完全な軌道と最終報酬のみに依存しているため、長い軌道内の優れたセグメントと劣ったセグメントを区別することが困難であるという制限に対処するため、このフレームワークは、3つのコアメカニズム(MMDベースの報酬推定、貪欲なスライスポリシー、適応的な履歴切り捨て)を使用して、時間ステップレベルでポリシー学習用の高品質のサブ軌道を明示的に分割および抽出します。実験では、PRGSがモデルの高報酬経験を結合する能力を大幅に強化し、複数の複雑な環境ベンチマークで元のベースラインアルゴリズムと比較して平均15.81 TP3Tのパフォーマンス向上を達成することが示されています。