HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA Dynamo、ストリーミングトークンとツール対応のマルチターンエージェントサポートを追加

NVIDIA は Agentic ハーネス向けに Dynamo インフラの強化を発表しました。これは、複数ターンにわたる推論とツール呼び出しを正確に扱い、ユーザーエクスペリエンスを現行の主要エージェントに準拠させるためのものです。特に、Claude Code や OpenClaw などが直面する圧力点に対応し、推論の再解釈やツール呼び出しの構造化をリアルタイムでストリーミングすることを可能にしました。 実験では、NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 モデルを使用して検証が行われました。主要な課題の一つは KV キャッシュの再利用率でした。セッションごとの課金ヘッダーなど、予測不能なプレフィックスが含まれるとキャッシュが破綻し、時間遅延が約 5 倍に悪化することが判明しました。これを解消するため、トークン化前の不安定なヘッダーを除去する機能を実装し、安定したプロンプトスロットの再利用を可能にしました。 また、推論ブロックとツール呼び出しの順序を正しく維持するパース機能も改善されました。従来の手法では、推論とツール呼び出しが混在するターンで情報が失われたり、順序が入れ替わったりする問題がありました。NVIDIA は、モデル固有の推論ポリシーに従って、関連する推論情報を保持し、ストリーミング中にツール呼び出しを即座にディスパッチする仕組みを導入しました。これにより、ハルネス側での推測が不要になり、実行の応答性が大幅に向上しました。 さらに、Claude Code や Codex との完全な互換性確保のため、API の忠実性も向上させました。特に Codex においては、モデルカタログに基づいて適切なメタデータを付与することが重要であると示されました。デフォルト設定のままだと、ツール呼び出しの頻度や推論の維持に著しい差が生じるため、カタログプロファイルに従ったリクエスト整形が必要不可欠です。 今後は、セッションの優先度や遅延感度などの新しいヒント機能をサポートし、プロトコル、パース、トークナイザーの各層を独立した再利用可能なコンポーネントとして公開する予定です。これにより、開発者は Dynamo の内部実装をそのままコピーせずとも、独自のエージェント用サーバーを構築・カスタマイズすることが可能になります。

関連リンク

NVIDIA Dynamo、ストリーミングトークンとツール対応のマルチターンエージェントサポートを追加 | 人気の記事 | HyperAI超神経