NVIDIA、VSSブリュープリント2.4で視覚AIエージェントを進化 物理世界理解とエッジ対応を強化
NVIDIAが発表した「AI Blueprint for Video Search and Summarization(VSS)」の最新バージョン2.4は、コンピュータビジョン(CV)と生成AI、推論技術を統合する新たな仕組みを提供。これにより、リアルタイムの動画解析が従来の「物体カウント」から「物理世界の理解」へと進化。開発者は、動画ストリームから意味のあるインサイトを抽出し、複数カメラ間の情報を連携して質問に答えることが可能になる。 主なアップデートは4つ。まず、物理世界の理解を強化するため、NVIDIAの「Cosmos Reason」——70億パラメータの推論型視覚言語モデル(VLM)——と統合。このモデルは、物理法則や常識に基づいた人間のような推論が可能で、製造ラインや物流倉庫、小売店舗、交通網などでの異常検出や根本原因分析に活用できる。また、小規模なモデルでありながらエッジデバイスでの実行も可能で、独自データでのファインチューニングも可能。 次に、質問応答(Q&A)機能が大幅に強化された。知識グラフの重複削除や、複数カメラ間の同一オブジェクト(例:移動する車)の統合により、跨カメラの理解が可能に。さらに、AIエージェントベースの推論により、質問を分解し、グラフを探索、動画フレームを再確認するなど、複数ステップで正確な回答を導く仕組みが導入。ベンチマークでは、長時間動画解析の精度が16.16%向上。 また、エッジでの低遅延運用を可能にする「Event Reviewer」機能が新設。CVパイプラインが検出したイベント(例:衝突の兆候)の短い動画クリップにのみVSSを適用し、生成AIでコンテキスト付きのインサイトを提供。これにより、常にフルスケールで処理するよりも計算コストを大幅に削減できる。 さらに、NVIDIA Blackwellアーキテクチャを搭載する複数のハードウェア(Jetson Thor、RTX Pro 6000ワークステーション/サーバー、DGX Spark)に対応。ArangoDBも知識グラフのバックエンドとしてサポートされ、CUDA加速により処理速度が向上。 VSS Blueprint 2.4は、AIによる視覚的知能の実用化を加速。開発者はNVIDIA BrevやGitHubリポジトリからワンクリックでデプロイ可能。生成AIと推論を組み合わせた「視覚エージェント」の実現に向け、産業現場やスマートシティなどでの活用が期待される。
