Command Palette
Search for a command to run...

要約
大規模言語モデル(LLM)のパラダイムは、ウェブ閲覧機能を備えたエージェント型応用へとますますシフトしており、多様なオンライン情報源からの情報取得において、ウェブ閲覧能力は不可欠である。しかし、現在のオープンソースウェブエージェントは、複雑なタスクにおける情報探索能力が限定的であるか、実装の透明性に欠けるという問題を抱えている。本研究では、情報探索に向けた挑戦的なデータの不足が主な課題であることを明らかにした。この課題に対処するため、我々は、モデルベースの探索と反復的・長さから短さへのクエリ進化を用いた体系的なデータ生成手法であるWebExplorerを提案する。この手法により、複数ステップの推論と複雑なウェブナビゲーションを要する、挑戦的なクエリ-回答ペアを生成できる。我々が収集・整備した高品質なデータセットを活用し、教師あり微調整(supervised fine-tuning)と強化学習(reinforcement learning)を経て、高度なウェブエージェント「WebExplorer-8B」を構築した。本モデルは128Kのコンテキスト長をサポートし、最大100回のツール呼び出しを可能とし、長時間スパンの問題解決が実現できる。さまざまな情報探索ベンチマークにおいて、WebExplorer-8Bは同規模のモデルの中で最先端の性能を達成した。特に、8B規模のモデルであるにもかかわらず、強化学習による訓練後、平均16回の探索を効果的に行うことができ、BrowseComp-en/zhにおいてWebSailor-72Bを上回る精度を達成し、WebWalkerQAおよびFRAMESでは100Bパラメータまでのモデルの中で最高の性能を記録した。情報探索タスクにとどまらず、本モデルは知識集約型QAデータでのみ訓練されたにもかかわらず、HLEベンチマークにおいても優れた汎化性能を示した。これらの結果は、本研究のアプローチが、長時間スパンのウェブエージェント実現に向けて実用的な道筋を提供していることを示している。