NVIDIAのData Flywheel Blueprintで効率的なAIエージェントを構築:大規模モデルの性能を維持しながらコスト削減を実現
NVIDIAが提案するData Flywheel Blueprintで効率的なAIエージェントの構築を自動化 企業でのエージェンティックAI(自己主張型AI)の採用が進む中、チームはインテリジェントなアプリケーションを拡大しつつ推論コストを管理するという課題に直面しています。超大型言語モデル(LLM)は強力な性能を持っていますが、高い計算リソースが求められることから、遅延の増加やコスト上昇につながります。さらに、評価、データキュレーション、ファインチューニングといった多くの開発作業が手動で行われており、自動化が難しく、規模の拡大に対して効率的であることにはなりません。 また、AIエージェントは推理やツールルーティング、サマリゼーションなどのタスクのために専門のモデルに依存することが増えており、各コンポーネントには異なる性能特性と最適化要件が存在します。これらの個々のコンポーネントを効率的に評価し、ファインチューニングすることは困難です。 これを解決するために、NVIDIAは「Data Flywheel Blueprint」を公開しました。このブループリントは、NVIDIA NeMoマイクロサービスに基づいて構築された参考アーキテクチャであり、リアルワールドのプロダクショントラフィックを使用することで、大きな基礎モデル(例:70Bパラメータ)の能力を小さな、安価で高速なモデルに持続的に蒸留することが可能になります。これにより、ラテンシの削減と推論コストの低減を実現でき、モデルの精度を落とすことなく、手間を省いて最適化を進めることができます。 Data Flywheel Blueprintの構成と動作原理 Data Flywheel Blueprintの核心となるのはFlywheel Orchestrator Serviceです。これはNVIDIA NeMoマイクロサービスとの直接的な相互作用を抽象化する統合制御平面で、プロデューサーシステム全体の「脳」として機能します。Orchestrator APIは、モジュール式のNeMoマイクロサービス群を活用して、連続的な評価と再学習の周期を実行し、小さな高効率モデルを発見・向上させます。以下にそのステップを解説します。 ログ取り込み: 大型モデルからのプロダクションでのプロンプト/レスポンスログがElasticsearchインデックスに取り込まれます。これらのログはOpenAI準拠のフォーマットを採用しています。 タグ付けによるパーティショニング: 各ログはワークロードIDなどのメタデータでタグ付けされ、エージェントノードごとにタスクに焦点を当てたデータ処理を可能にします。 データセット作成: Orchestratorはログの重複を除去し、各タスクに合わせた訓練・評価データセットを作成します。これは外部の真偽ラベルに依存せず、元のモデルのレスポンスのみを使用するため、手動ラベル付けの必要がありません。 ファインチューニングジョブ: NeMo Customizerを用いてLoRAアダプターを使用した教師ありファインチューニングジョブが開始されます。これにより、大型教師モデルの知識が小さく特定のタスク向けの候補モデルに蒸留されます。 実行評価: NeMo Evaluatorは、LLM-as-judgeなどの3つの評価方法を利用して、候補モデルの性能を測定します。 スコアリングと集計: モデルの出力がNeMo Evaluatorによって評価され、その結果はOrchestrator APIを通じて報告されます。 レビューとプロモーション: 開発者や管理者はメトリクスにアクセスでき、アーティファクトをダウンロードし、追加の実験を起動するか、トップパフォーミングの候補モデルを生産環境にプロモートすることができます。 適用例:Agentic Tool Callingへの採用 Data Flywheel Blueprintの価値と使用方法を示すために、高影響のユースケースとして「Agentic Tool Calling」を示します。これは、プロダクションAIエージェントが信頼性を持って外部システムとインターフェースする必要がある際に対応するためのものです。 初期状態では、カスタマーサポートタスク(製品Q&A、注文追跡、返品、雑談など)向けのマルチツールAIエージェントが大型のLlama-3.3-70B-instructモデルによって動いていました。このモデルは高いツール呼び出し精度を持っていましたが、コストが高かったため、小さなモデルをチューニングして精度を維持しながらコストを削減することを目指しました。製造ラインでは、実際の顧客対話を通じて継続的にツール呼び出しの性能を改善します。 この設定において、Data Flywheel Blueprintを用いて以下の3つの最適化実験を実施しました: ゼロショットプロンプティング(base-eval): 先行している例やカスタマイズなしで、モデルを評価します。これにより、大規模モデルの本来の振る舞いが捉えられ、小さなモデルの基準となります。 コンテキスト内の学習(icl-eval): 実際の製造トラフィックから自動的にサンプリング・フォーマットされた少額の例を使用し、各プロンプトの前後に配置します。これにより、モデルがコンテキストプロンプティングによってどれだけ改善できるかをテストします。 教師ありファインチューニング(customized-eval): 模擬的な任务特定のデータセットを使用して、LoRAアダプターを用いたモデルのファインチューニングを実施し、前述の評価方法で再度測定します。 NeMo Evaluatorは、人工ラベルなしで自動的にすべてのモデル出力を評価し、function_name_and_args_accuracyやtool_calling_correctnessなどの構造化メトリクスを提供します。このプロセスは完全に自動化されており、開発者がAPI経由で評価レポートにアクセスして、最高性能の候補モデルを元のNIMに置き換えることができます。 結果は驚くほど明快でした。SFT-LoRAを用いたLlama-3.2-1Bモデルのツール呼び出し精度が、元の70Bモデルの98%まで向上しました。これにより、性能とコスト効率両面で大幅な改善が見られたのです。 環境設定とジョブ実行 Data Flywheel Blueprintを起動するには、まず環境を設定し、必要なサービスをデプロイする必要があります。GitHubリポジトリのREADMEを参照すると詳細な指示が得られますが、基本的には以下の手順を踏むことになります。 APIキーの生成: NeMoマイクロサービスのデプロイ、NIMとしてホストされているモデルへのアクセス、オンプレミスでのモデルダウンロードに必要な個人APIキーを生成します。 NeMoマイクロサービスプラットフォームのデプロイ: 必要なNeMoマイクロサービスをデプロイします。 Data Flywheel Orchestratorのインストールと設定: Data Flywheel Orchestratorをインストールと設定します。 設定が完了したら、config.yamlファイルを用いてモデルとワークフローを定義します。デプロイするNIMモデル、ファインチューニング(例:LoRA)設定、評価(例:ICL、LLM-as-a-Judge)設定などが指定できます。ジョブの起動は、簡単なAPI呼び出しによって行われます。 業界関係者の採用事例 Data Flywheel Blueprintは、NVIDIAパートナーエコシステムでも早期採用が見られており、以下のような定制化された活用例があります: Weights & Biases: 検証可能性と観測性、モデル実験追跡などを加えたカスタム版を提供しています。 Iguazio: AIオーケストレーションと監視コンポーネントを統合し、自社のAIプラットフォームを強化しています。 Amdocs: CI/CDパイプラインにLLMのファインチューニングと評価を直接インテグレートすることで、エージェントの精度とパフォーマンスを継続的に向上させています。 EY: 税務、リスク、金融分野向けに自己改善型でコスト効率の良いエージェントを実現するために、モデルのリアルタイム最適化を組み込んでいます。 VAST: 資金、ヘルスケア、科学研究などの業界向けに多様なソースからのリアルタイムデータ収集、エンリッチ、フィードバックを可能にする独自のデータフライホイールを設計しています。 Data Flywheel Blueprintを用いて、自分のユースケースに合わせたデータフライホイールを構築しましょう。NVIDIA APIカタログからブループリントを探索し、セットアップガイドや実装詳細、チュートリアルを利用できます。6月18日には、NVIDIAの専門家がデータフライホイールについて解説するライブウェルビナーを開催予定です。また、6月26日のライブストリームQ&Aセッションでは、ブループリントの最新バージョンを使用してデータフライホイールを Easily構築する方法などを詳しくお伝えします。これらのイベントに参加して、新しいアーキテクチャの可能性を深く理解してください。
