日付

1ヶ月前

組織

Paper URL

タグ

ピークリターングリーディスライシング（PRGS）は、山東大学、中国科学院、李オート、清華大学などの研究チームが共同で提案したアルゴリズムフレームワークです。関連する研究成果は[論文名不明]に掲載されています。 ピークリターングリーディスライシング：トランスフォーマーベースのオフライン強化学習におけるサブ軌道選択ICLR 2026に採択されました。

PRGSは、時間ステップレベルでの明示的な軌道分割を通じて、Transformerベースのオフライン強化学習（Offline RL）モデルの経験結合および再編成機能を大幅に強化することを目的としています。既存の手法は、多くの場合、完全な軌道と最終報酬のみに依存しているため、長い軌道内の優れたセグメントと劣ったセグメントを区別することが困難であるという制限に対処するため、このフレームワークは、3つのコアメカニズム（MMDベースの報酬推定、貪欲なスライスポリシー、適応的な履歴切り捨て）を使用して、時間ステップレベルでポリシー学習用の高品質のサブ軌道を明示的に分割および抽出します。実験では、PRGSがモデルの高報酬経験を結合する能力を大幅に強化し、複数の複雑な環境ベンチマークで元のベースラインアルゴリズムと比較して平均15.81 TP3Tのパフォーマンス向上を達成することが示されています。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

日付

1ヶ月前

組織

Paper URL

タグ

空間理論

空間理論とは、知的エージェントが不完全な情報環境において、能動的な探索を通じて空間的な信念を構築、更新、活用する能力に関する枠組みを指す。

1ヶ月前

デンス・レトリバー

高密度検索エンジンは、膨大な文書ライブラリからクエリの意味に最も関連性の高い段落を迅速に見つける役割を担っており、検索強化生成システムの中核となる基盤コンポーネントです。

1ヶ月前

平均速度戦略（MVP）

MVPは、平均速度場をモデル化することで、高い表現力と極めて高速な計算を両立させた、単一ステップの動作生成を実現します。

2ヶ月前

展開しながら学ぶ

LWDは、汎用ロボットが継続的に経験を収集し、ポリシーの自己進化を実現することを可能にする、フリートレベルのオフラインからオンラインへの強化学習フレームワークです。

24日前

誘導思考強化

GTRは、複雑な視覚環境におけるモデルの推論を導き、「思考停止」を防ぐことができる。

1ヶ月前

安全性比較方法：深層視覚安全プロンプト

これは、LVLMの安全な位置合わせにおける主要な課題を効果的に解決します。

2ヶ月前

iSeal指紋認証方式

iSealは、12種類のLLMに対する10回以上の攻撃に対して、100%の指紋認証成功率（FSR）を達成しました。

2ヶ月前

モデルスープ

モデルスープ法は、複数の微調整の重みを平均化することで、より優れたモデルを生成することができる。

2ヶ月前

スパースコードツリーのデコードツリーのスケッチ

GPUの並列処理を活用してデコードツリーを効率的に拡張することで、推論パスの高速かつスケーラブルな最適化が実現されます。

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

ピークリターン貪欲スライス

AIでAIを構築

HyperAI Newsletters

Command Palette

ピークリターン貪欲スライス

関連 Wiki

空間理論

デンス・レトリバー

平均速度戦略（MVP）

展開しながら学ぶ

誘導思考強化

安全性比較方法：深層視覚安全プロンプト

iSeal指紋認証方式

モデルスープ

スパースコードツリーのデコードツリーのスケッチ

AIでAIを構築

HyperAI Newsletters

Command Palette

ピークリターン貪欲スライス

関連 Wiki

空間理論

デンス・レトリバー

平均速度戦略（MVP）

展開しながら学ぶ

誘導思考強化

安全性比較方法：深層視覚安全プロンプト

iSeal指紋認証方式

モデルスープ

スパースコードツリーのデコードツリーのスケッチ

AIでAIを構築

HyperAI Newsletters

関連 Wiki

空間理論

デンス・レトリバー

平均速度戦略（MVP）

展開しながら学ぶ

誘導思考強化

安全性比較方法：深層視覚安全プロンプト

iSeal指紋認証方式

モデルスープ

スパースコードツリーのデコードツリーのスケッチ

関連 Wiki

空間理論

デンス・レトリバー

平均速度戦略（MVP）

展開しながら学ぶ

誘導思考強化

安全性比較方法：深層視覚安全プロンプト

iSeal指紋認証方式

モデルスープ

スパースコードツリーのデコードツリーのスケッチ