5ヶ月前

エージェント

アプローチ／フレームワーク

Kuan Li Zhongwang Zhang Huifeng Yin Rui Ye Yida Zhao Liwen Zhang Litu Ou Dingchu Zhang Xixi Wu Jialong Wu

概要

人間の認知的限界を越えることは、大規模言語モデル（LLM）の訓練において重要な前線分野である。DeepResearch などの独自エージェントシステムは、BrowseComp といった極めて複雑な情報探索ベンチマークにおいて、かつては実現不可能とされてきた「超人的な能力」を示している。我々は、こうした成功の鍵は、オープンソースモデルには見られない高度な推論パターンにあると仮説を立てている。すなわち、広大な情報空間を探索する際に極度の不確実性を体系的に低減する能力である。この知見に基づき、本研究では、この重要な能力を習得させるために設計された包括的な事後訓練手法「WebSailor」を提案する。本手法は、構造化されたサンプリングと情報の隠蔽によって新たな高不確実性タスクを生成し、RFTのコールドスタート、そして効率的なエージェント型強化学習アルゴリズムである「複製サンプリング方策最適化（DUPO）」を組み合わせたパイプラインを採用している。この統合的なアプローチにより、WebSailor は複雑な情報探索タスクにおいて、すべてのオープンソースエージェントを大きく上回り、独自エージェントと同等の性能を達成し、能力のギャップを埋めることに成功した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

5ヶ月前

エージェント

アプローチ／フレームワーク

Kuan Li Zhongwang Zhang Huifeng Yin Rui Ye Yida Zhao Liwen Zhang Litu Ou Dingchu Zhang Xixi Wu Jialong Wu

概要

人間の認知的限界を越えることは、大規模言語モデル（LLM）の訓練において重要な前線分野である。DeepResearch などの独自エージェントシステムは、BrowseComp といった極めて複雑な情報探索ベンチマークにおいて、かつては実現不可能とされてきた「超人的な能力」を示している。我々は、こうした成功の鍵は、オープンソースモデルには見られない高度な推論パターンにあると仮説を立てている。すなわち、広大な情報空間を探索する際に極度の不確実性を体系的に低減する能力である。この知見に基づき、本研究では、この重要な能力を習得させるために設計された包括的な事後訓練手法「WebSailor」を提案する。本手法は、構造化されたサンプリングと情報の隠蔽によって新たな高不確実性タスクを生成し、RFTのコールドスタート、そして効率的なエージェント型強化学習アルゴリズムである「複製サンプリング方策最適化（DUPO）」を組み合わせたパイプラインを採用している。この統合的なアプローチにより、WebSailor は複雑な情報探索タスクにおいて、すべてのオープンソースエージェントを大きく上回り、独自エージェントと同等の性能を達成し、能力のギャップを埋めることに成功した。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています