7ヶ月前

エージェント

アプローチ／フレームワーク

Kuan Li Zhongwang Zhang Huifeng Yin Liwen Zhang Litu Ou Jialong Wu Wenbiao Yin Baixuan Li Zhengwei Tao Xinyu Wang

概要

人的認知制限を超えることは、大規模言語モデル（LLM）の訓練における重要な最前線を表しています。DeepResearchのような独自のエージェントシステムは、BrowseCompなどの極めて複雑な情報探索ベンチマークで超人的な能力を示しており、これは以前には達成不可能だった成果です。我々は、これらのシステムの成功がオープンソースモデルに見られない洗練された推論パターンに依存していると主張します。それは、広大な情報空間をナビゲートする際に極度の不確実性を系統的に低減する能力です。この洞察に基づいて、我々はこの重要な能力を付与することを目的とした完全な後訓練手法であるWebSailorを導入します。当手法では、構造化サンプリングと情報隠蔽により新しい高不確実性タスクを生成し、RFTコールドスタートと効率的なエージェント強化学習アルゴリズムである重複サンプリング方策最適化（DUPO）を使用します。この統合パイプラインにより、WebSailorは複雑な情報探索タスクにおいてすべてのオープンソースエージェントを大幅に上回り、独自エージェントの性能に匹敵し、能力ギャップを埋めています。注：「RFT冷启动」は一般的な日本語表現がないため、「RFTコールドスタート」と訳しました。「重複サンプリング方策最適化（DUPO）」も同様に括弧内に原文を記載しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

エージェント

アプローチ／フレームワーク

Kuan Li Zhongwang Zhang Huifeng Yin Liwen Zhang Litu Ou Jialong Wu Wenbiao Yin Baixuan Li Zhengwei Tao Xinyu Wang

概要

人的認知制限を超えることは、大規模言語モデル（LLM）の訓練における重要な最前線を表しています。DeepResearchのような独自のエージェントシステムは、BrowseCompなどの極めて複雑な情報探索ベンチマークで超人的な能力を示しており、これは以前には達成不可能だった成果です。我々は、これらのシステムの成功がオープンソースモデルに見られない洗練された推論パターンに依存していると主張します。それは、広大な情報空間をナビゲートする際に極度の不確実性を系統的に低減する能力です。この洞察に基づいて、我々はこの重要な能力を付与することを目的とした完全な後訓練手法であるWebSailorを導入します。当手法では、構造化サンプリングと情報隠蔽により新しい高不確実性タスクを生成し、RFTコールドスタートと効率的なエージェント強化学習アルゴリズムである重複サンプリング方策最適化（DUPO）を使用します。この統合パイプラインにより、WebSailorは複雑な情報探索タスクにおいてすべてのオープンソースエージェントを大幅に上回り、独自エージェントの性能に匹敵し、能力ギャップを埋めています。注：「RFT冷启动」は一般的な日本語表現がないため、「RFTコールドスタート」と訳しました。「重複サンプリング方策最適化（DUPO）」も同様に括弧内に原文を記載しました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています