Date

2ヶ月前

Organization

Paper URL

DexFlyWheelは、2025年9月に北京大学、ハルビン工業大学、PsiBotによって提案され、関連する研究成果は論文「DexFlyWheel: 器用な操作のためのスケーラブルで自己改善的なデータ生成フレームワーク」がNeurIPS 2025のスポットライトに採択されました。

DexFlyWheelは、自己改善ループを用いてデータの多様性を継続的に向上させるスケーラブルなデータ生成フレームワークです。このフレームワークには、人間のような多様なデータを生成するためのIL+残差強化学習（Residual RL）という2つの主要な設計特徴があります。具体的には、ILと残差強化学習をポリシーアンローリングとデータ拡張と組み合わせることで、自己改善ループを形成します。各イテレーションにおいて、ポリシーは軌跡を生成し、それらはより多様なシナリオで強化され、次のイテレーションに入力されます。このループはフライホイール効果を生み出し、データの多様性を徐々に拡大し、ポリシーの一般化能力を高め、堅牢で一般化可能なデータ生成エージェントへと進化します。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

Date

2ヶ月前

Organization

Paper URL

2509.23829

Related Wiki

ハクスリー・ゲーデル・マシン

このモデルは、コーディングエージェント環境でゲーデルマシンを近似し、適応スケジューリングによるトンプソンサンプリングを通じて拡張をガイドします。

1ヶ月前

協調拡散自己回帰パラダイムSDAR

SDAR は、自己回帰と拡散の相補的な利点を統合した新しい実用的な言語モデリングパラダイムを確立します。

1ヶ月前

セルフプレイから検索

SSP は、エージェント LLM のためのスケーラブルでデータ効率の高いトレーニングパラダイムとしての自己ゲーム理論の可能性を示しています。

1ヶ月前

レイアウト制御フレームワーク InstanceAssemble

InstanceAssemble は、マルチモーダル条件下で高品質かつ制御可能な画像生成を可能にします。

1ヶ月前

マルチエージェントワークフロー CudaForge

CudaForge は、CUDA カーネルの生成と最適化のためのシンプルで効果的かつ低コストのマルチエージェントワークフローです。

1ヶ月前

エージェントコンテキストエンジニアリング

ACE は、入力コンテキストを動的に最適化することでエージェントが自らを改善できるようにします。

2ヶ月前

グループ分散戦略最適化 GVPO

GRPO などの既存の微調整手法の限界を考慮すると、GVPO は信頼性が高く多用途なトレーニング後のパラダイムとして登場しました。

2ヶ月前

判別制約最適化フレームワーク（DisCO）

新しい原理ベースの識別制約最適化フレームワークは、難易度バイアスとトレーニングの不安定性を回避します。

1ヶ月前

ゲート付き注意

Tongyi Qianwen チームは、標準的なソフトマックス注意におけるゲーティングメカニズムの役割を体系的に研究しました。

1ヶ月前

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding

Ready-to-use GPUs

Best Pricing

Get Started View Pricing

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

DexFlyWheelデータ生成フレームワーク | Wiki | HyperAI超神経

Command Palette

DexFlyWheelデータ生成フレームワーク

Build AI with AI

HyperAI Newsletters

Command Palette

DexFlyWheelデータ生成フレームワーク

Related Wiki

ハクスリー・ゲーデル・マシン

協調拡散自己回帰パラダイムSDAR

セルフプレイから検索

レイアウト制御フレームワーク InstanceAssemble

マルチエージェントワークフロー CudaForge

エージェントコンテキストエンジニアリング

グループ分散戦略最適化 GVPO

判別制約最適化フレームワーク（DisCO）

ゲート付き注意

Build AI with AI

HyperAI Newsletters

Command Palette

DexFlyWheelデータ生成フレームワーク

Related Wiki

ハクスリー・ゲーデル・マシン

協調拡散自己回帰パラダイムSDAR

セルフプレイから検索

レイアウト制御フレームワーク InstanceAssemble

マルチエージェントワークフロー CudaForge

エージェントコンテキストエンジニアリング

グループ分散戦略最適化 GVPO

判別制約最適化フレームワーク（DisCO）

ゲート付き注意

Build AI with AI

HyperAI Newsletters

Related Wiki

ハクスリー・ゲーデル・マシン

協調拡散自己回帰パラダイムSDAR

セルフプレイから検索

レイアウト制御フレームワーク InstanceAssemble

マルチエージェントワークフロー CudaForge

エージェントコンテキストエンジニアリング

グループ分散戦略最適化 GVPO

判別制約最適化フレームワーク（DisCO）

ゲート付き注意

Related Wiki

ハクスリー・ゲーデル・マシン

協調拡散自己回帰パラダイムSDAR

セルフプレイから検索

レイアウト制御フレームワーク InstanceAssemble

マルチエージェントワークフロー CudaForge

エージェントコンテキストエンジニアリング

グループ分散戦略最適化 GVPO

判別制約最適化フレームワーク（DisCO）

ゲート付き注意