日付

1年前

ReAct フレームワークは、プリンストン大学と Google Research の Yao Shunyu らによって、論文「」で開発されました。React: 言語モデルでの推論と行動の相乗効果「この研究は、言語モデルがさまざまな言語推論と意思決定タスクを解決できるようにする推論とアクションの進歩を組み合わせた一般的なパラダイムを提案します。」研究によると、Reason+Act (ReAct) パラダイムは、より大きな言語モデルをプロンプトし、より小さな言語モデルを微調整する場合に、推論とアクションのみのパラダイムより体系的に優れていることが実証されています。また、推論と行動が緊密に統合されることで、人間と一致するタスク解決の軌道が示され、それによって説明可能性、診断可能性、および制御可能性が向上します。

ReAct を使用すると、言語モデルが口頭推論の軌道とテキストのアクションをインターリーブ方式で生成できるようになります。行動は外部環境からの観察フィードバックをもたらしますが、推論の軌跡は外部環境に影響を与えません。代わりに、コンテキストについて推論し、将来の推論とアクションをサポートする有用な情報でモデルを更新することによって、モデルの内部状態に影響を与えます。

ReAct は、言語モデルで推論とアクションを連携させるためのシンプルかつ効果的な方法です。研究チームは、マルチホップの質問応答、ファクトチェック、インタラクティブな意思決定タスクに焦点を当てたさまざまな実験を通じて、ReAct には優れたパフォーマンスにつながる解釈可能な意思決定の軌跡があることを示しました。

ReAct は、言語モデルで思考、行動、および環境フィードバックを共同でモデル化する実現可能性を実証し、環境との対話を必要とするタスクを解決できる多用途エージェントになります。

判別制約最適化フレームワーク（DisCO）

新しい原理ベースの識別制約最適化フレームワークは、難易度バイアスとトレーニングの不安定性を回避します。

2ヶ月前

エージェントコンテキストエンジニアリング

ACE は、入力コンテキストを動的に最適化することでエージェントが自らを改善できるようにします。

3ヶ月前

推測する – 考える – 答える

GTA は、複数のテキスト分類ベンチマークにおいて、標準の SFT ベースラインや最先端の RL 方式を大幅に上回ります。

3ヶ月前

キャッシュツーキャッシュ（C2C）

C2C は、モデル間のキー値 (KV) キャッシュを変換および融合することで、直接的なセマンティック通信を可能にします。

2ヶ月前

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

MultiPL-MoEは、事前トレーニング後の段階で低ソースプログラミング言語を拡張するための効果的な方法です。

2ヶ月前

ゲート付き注意

Tongyi Qianwen チームは、標準的なソフトマックス注意におけるゲーティングメカニズムの役割を体系的に研究しました。

2ヶ月前

UserBenchベンチマーク

UserBench は、エージェントが現実世界のユーザーとのコミュニケーションを理解し、対話し、適応する能力を評価し、強化することを目的としています。

3ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

日付

1年前

判別制約最適化フレームワーク（DisCO）

新しい原理ベースの識別制約最適化フレームワークは、難易度バイアスとトレーニングの不安定性を回避します。

2ヶ月前

エージェントコンテキストエンジニアリング

ACE は、入力コンテキストを動的に最適化することでエージェントが自らを改善できるようにします。

3ヶ月前

推測する – 考える – 答える

GTA は、複数のテキスト分類ベンチマークにおいて、標準の SFT ベースラインや最先端の RL 方式を大幅に上回ります。

3ヶ月前

キャッシュツーキャッシュ（C2C）

C2C は、モデル間のキー値 (KV) キャッシュを変換および融合することで、直接的なセマンティック通信を可能にします。

2ヶ月前

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

MultiPL-MoEは、事前トレーニング後の段階で低ソースプログラミング言語を拡張するための効果的な方法です。

2ヶ月前

ゲート付き注意

Tongyi Qianwen チームは、標準的なソフトマックス注意におけるゲーティングメカニズムの役割を体系的に研究しました。

2ヶ月前

UserBenchベンチマーク

3ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

AIでAIを構築

HyperAI Newsletters

関連 Wiki

判別制約最適化フレームワーク（DisCO）

エージェントコンテキストエンジニアリング

推測する – 考える – 答える

キャッシュツーキャッシュ（C2C）

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

ゲート付き注意

UserBenchベンチマーク

AIでAIを構築

HyperAI Newsletters

関連 Wiki

判別制約最適化フレームワーク（DisCO）

エージェントコンテキストエンジニアリング

推測する – 考える – 答える

キャッシュツーキャッシュ（C2C）

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

ゲート付き注意

UserBenchベンチマーク

AIでAIを構築

HyperAI Newsletters

関連 Wiki

判別制約最適化フレームワーク（DisCO）

エージェントコンテキストエンジニアリング

推測する – 考える – 答える

キャッシュツーキャッシュ（C2C）

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

ゲート付き注意

UserBenchベンチマーク

関連 Wiki

判別制約最適化フレームワーク（DisCO）

エージェントコンテキストエンジニアリング

推測する – 考える – 答える

キャッシュツーキャッシュ（C2C）

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

ゲート付き注意

UserBenchベンチマーク

Command Palette

ReAct フレームワーク

AIでAIを構築

HyperAI Newsletters

Command Palette

ReAct フレームワーク

関連 Wiki

判別制約最適化フレームワーク（DisCO）

エージェントコンテキストエンジニアリング

推測する – 考える – 答える

キャッシュツーキャッシュ（C2C）

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

ゲート付き注意

UserBenchベンチマーク

AIでAIを構築

HyperAI Newsletters

Command Palette

ReAct フレームワーク

関連 Wiki

判別制約最適化フレームワーク（DisCO）

エージェントコンテキストエンジニアリング

推測する – 考える – 答える

キャッシュツーキャッシュ（C2C）

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

ゲート付き注意

UserBenchベンチマーク

AIでAIを構築

HyperAI Newsletters

関連 Wiki

判別制約最適化フレームワーク（DisCO）

エージェントコンテキストエンジニアリング

推測する – 考える – 答える

キャッシュツーキャッシュ（C2C）

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

ゲート付き注意

UserBenchベンチマーク

関連 Wiki

判別制約最適化フレームワーク（DisCO）

エージェントコンテキストエンジニアリング

推測する – 考える – 答える

キャッシュツーキャッシュ（C2C）

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

ゲート付き注意

UserBenchベンチマーク