11日前
WebSailor: ウェブエージェントの超人的推論をナビゲートする
Kuan Li, Zhongwang Zhang, Huifeng Yin, Liwen Zhang, Litu Ou, Jialong Wu, Wenbiao Yin, Baixuan Li, Zhengwei Tao, Xinyu Wang, Weizhou Shen, Junkai Zhang, Dingchu Zhang, Xixi Wu, Yong Jiang, Ming Yan, Pengjun Xie, Fei Huang, Jingren Zhou

要約
人的認知制限を超えることは、大規模言語モデル(LLM)の訓練における重要な最前線を表しています。DeepResearchのような独自のエージェントシステムは、BrowseCompなどの極めて複雑な情報探索ベンチマークで超人的な能力を示しており、これは以前には達成不可能だった成果です。我々は、これらのシステムの成功がオープンソースモデルに見られない洗練された推論パターンに依存していると主張します。それは、広大な情報空間をナビゲートする際に極度の不確実性を系統的に低減する能力です。この洞察に基づいて、我々はこの重要な能力を付与することを目的とした完全な後訓練手法であるWebSailorを導入します。当手法では、構造化サンプリングと情報隠蔽により新しい高不確実性タスクを生成し、RFTコールドスタートと効率的なエージェント強化学習アルゴリズムである重複サンプリング方策最適化(DUPO)を使用します。この統合パイプラインにより、WebSailorは複雑な情報探索タスクにおいてすべてのオープンソースエージェントを大幅に上回り、独自エージェントの性能に匹敵し、能力ギャップを埋めています。注:「RFT冷启动」は一般的な日本語表現がないため、「RFTコールドスタート」と訳しました。「重複サンプリング方策最適化(DUPO)」も同様に括弧内に原文を記載しました。