HyperAIHyperAI

Command Palette

Search for a command to run...

エージェントがデータサイエンティスト並みの推論:再利用可能ツール生成で DABStep 1 位達成

NVIDIA の KGMON(NeMo エージェント・ツールキット)チームが開発したデータ探索エージェント「Data Explorer」が、データインテリジェンス処理分野で画期的な進歩を遂げ、多段階推論型データエージェント基準テスト(DABStep)において首位を獲得しました。本ツールは、テキストベースのインターネット上に不足している定量的構造化データの課題解決のために設計され、熟練データサイエンティストのワークフローを模倣し、自動化された探索的データ分析、表形式クエリー応答、予測モデリングを実現します。複雑な多段クアリーが必要な表データを扱う際、従来のウェブ検索に依存するエージェントはしばしば機能不全に陥ります。これに対し Data Explorer は独自の三段階アーキテクチャを採用しています。第一に「学習フェーズ」では、大規模言語モデルを用いてサンプルタスクを一括処理し、汎用関数ライブラリ(helper.py)を抽出してカプセル化することで、断片的なコードロジックを再利用可能なモジュールへと統合し、「一度記述すればどこでも実行可能」という効率原則を実践します。第二に「推論フェーズ」では軽量かつ高速な専用モデルを展開し、新規タスクに対して事前生成済みの関数ライブラリを直接呼び出すことで、基盤となるロジクの再生成を不要とし、遅延とトークン消費量を大幅に削減します。第三に「オフライン反省フェーズ」では、大規模言語モデルにより過去のタスクに対する教師なし検証および一貫性解析を行い、その知見をシステムプロンプトへフィードバックすることで推論精度を継続的に向上させつつ、オンライン時のパフォーマンスには影響を与えません。実測結果によると、この手法は DABStep ベンチマークで驚異的な成績を残しました。難易度の高い多段推論タスクにおいては、Data Explorer の正解率は 89.95%に達し、重厚なモデルを使用する競合製品(Claude Code が 66.93%、Google AI が 45.24%)を大きく上回りました。さらに単一タスクあたりの所要時間はわずか 20 秒であり、コード生成長さは 1870 文字まで短縮されました。これは従来のゼロからコードを作成する方法と比較して 30 倍もの効率向上を示すものです。これらの成果は、基礎知識構築と迅速な推論を分離させる戦略が、軽量モデルであっても複雑なデータ分析領域において重厚モデルを上回ることを証明しており、データ集約型研究における新たなパラダイムを確立するものです。現在、NVIDIA では開発者がカスタマイズ型のデータ探索エージェントを構築できるよう関連ツールの提供を開始しています。

関連リンク

エージェントがデータサイエンティスト並みの推論:再利用可能ツール生成で DABStep 1 位達成 | 人気の記事 | HyperAI超神経