NVIDIA、AI GPUの位置追跡対応ファミリーマネジメントソフトを発表 電力・温度・構成のリアルタイム監視が可能に
NVIDIAがAI用GPUのリモート管理を可能にする新ソフトウェアを発表した。このツールは、データセンターにおけるGPUファミリーの運用状況をリアルタイムで可視化するもので、物理的な場所の特定を含む包括的な監視機能を備えている。同社は、このソフトウェアがGPUの設置場所を追跡できることを確認しており、チップの違法輸出や密輸を防ぐ一助となる可能性があると説明している。ただし、この機能はオプトイン制であり、導入は任意。そのため、国家レベルの違法行為などへの対策としての効果には限界がある。 ソフトウェアはNVIDIAのNGCプラットフォーム上に集約されたダッシュボードを提供。データセンター運営者は、グローバルまたは特定のクラウド・コンピュートゾーン単位でGPUの稼働状況を把握でき、個々のクラスターや全体のインベントリ、システムの健全性を確認できる。また、電力消費の詳細な記録、短時間の電力ピークの検出、GPU利用率、メモリ帯域幅、接続状態のモニタリングも可能。これにより、負荷の不均衡や帯域の飽和、リンク障害といった性能低下の原因を早期に発見できる。 さらに、熱管理と空気循環状態の監視機能も搭載。高温スポットや空気の流れ不足を検知することで、熱制限による性能低下や、AIアクセラレータの早期劣化を防ぐ。また、各ノードのソフトウェアスタックや設定の整合性を確認でき、データセットの再現性や学習プロセスの予測可能性を高める。 この新サービスは、NVIDIAの既存ツールと連携する。DCGMはGPUの個別状態をローカルで取得する診断ツールだが、ダッシュボードの構築はユーザーが自前で行う必要がある。一方、Base CommandはAI開発のワークフロー管理を目的としており、ハードウェア監視には不向き。新ソフトウェアはこれらを統合し、地理的に分散したGPUファミリー全体の可視化を実現。データセンター運営者にとって、効率的かつ信頼性の高いAIインフラ運用を支える強力なツール群が整った。
