Command Palette
Search for a command to run...
WebShaper:情報探索を用いたエージェンティックなデータ合成の形式化
WebShaper:情報探索を用いたエージェンティックなデータ合成の形式化
概要
大規模言語モデル(LLM)を駆動とするエージェントの登場により、ウェブベースの情報検索(IS)機能を通じて複雑でオープンエンドなタスクに対する解決策を可能にしたことで、人工知能は大きな変化を遂げました。しかし、高品質なトレーニングデータの不足がISエージェントの開発を制限しています。従来の手法は、まずウェブデータを収集し、その後そのデータに基づいて質問を生成するという情報駆動型のパラダイムを採用しています。しかし、これは情報構造と推論構造、質問と回答の間に不一致を生じさせる可能性があります。これを緩和するため、我々はISデータの合成フレームワーク「WebShaper」を提案します。WebShaperは集合論を用いてISタスクを体系的に形式化し、知識投影(Knowledge Projections、KP)という概念を核心としています。KPの操作コンポジションを用いることで、推論構造を正確に制御することが可能です。データ合成の過程では、まずシードタスクを作成し、その後、我々の形式化に基づく情報検索と検証ツールを用いて、複雑な形式の質問に段階的に拡張していきます。合成されたデータセットを用いてモデルをトレーニングします。実験結果から、WebShaperがGAIAおよびWebWalkerQAのベンチマークにおいてオープンソースのISエージェントの中で最優れた性能を達成していることが示されています。