HyperAI超神経

NVIDIAが発表した「AI Blueprint for Video Search and Summarization（VSS）」の最新バージョン2.4は、コンピュータビジョン（CV）と生成AI、推論技術を統合する新たな仕組みを提供。これにより、リアルタイムの動画解析が従来の「物体カウント」から「物理世界の理解」へと進化。開発者は、動画ストリームから意味のあるインサイトを抽出し、複数カメラ間の情報を連携して質問に答えることが可能になる。主なアップデートは4つ。まず、物理世界の理解を強化するため、NVIDIAの「Cosmos Reason」——70億パラメータの推論型視覚言語モデル（VLM）——と統合。このモデルは、物理法則や常識に基づいた人間のような推論が可能で、製造ラインや物流倉庫、小売店舗、交通網などでの異常検出や根本原因分析に活用できる。また、小規模なモデルでありながらエッジデバイスでの実行も可能で、独自データでのファインチューニングも可能。次に、質問応答（Q&A）機能が大幅に強化された。知識グラフの重複削除や、複数カメラ間の同一オブジェクト（例：移動する車）の統合により、跨カメラの理解が可能に。さらに、AIエージェントベースの推論により、質問を分解し、グラフを探索、動画フレームを再確認するなど、複数ステップで正確な回答を導く仕組みが導入。ベンチマークでは、長時間動画解析の精度が16.16％向上。また、エッジでの低遅延運用を可能にする「Event Reviewer」機能が新設。CVパイプラインが検出したイベント（例：衝突の兆候）の短い動画クリップにのみVSSを適用し、生成AIでコンテキスト付きのインサイトを提供。これにより、常にフルスケールで処理するよりも計算コストを大幅に削減できる。さらに、NVIDIA Blackwellアーキテクチャを搭載する複数のハードウェア（Jetson Thor、RTX Pro 6000ワークステーション/サーバー、DGX Spark）に対応。ArangoDBも知識グラフのバックエンドとしてサポートされ、CUDA加速により処理速度が向上。 VSS Blueprint 2.4は、AIによる視覚的知能の実用化を加速。開発者はNVIDIA BrevやGitHubリポジトリからワンクリックでデプロイ可能。生成AIと推論を組み合わせた「視覚エージェント」の実現に向け、産業現場やスマートシティなどでの活用が期待される。

関連リンク

関連リンク

関連リンク

Command Palette

NVIDIA、VSSブリュープリント2.4で視覚AIエージェントを進化 物理世界理解とエッジ対応を強化

関連リンク

Command Palette

NVIDIA、VSSブリュープリント2.4で視覚AIエージェントを進化 物理世界理解とエッジ対応を強化

関連リンク

Command Palette

NVIDIA、VSSブリュープリント2.4で視覚AIエージェントを進化 物理世界理解とエッジ対応を強化

関連リンク

NVIDIA、VSSブリュープリント2.4で視覚AIエージェントを進化　物理世界理解とエッジ対応を強化

NVIDIA、VSSブリュープリント2.4で視覚AIエージェントを進化　物理世界理解とエッジ対応を強化

NVIDIA、VSSブリュープリント2.4で視覚AIエージェントを進化　物理世界理解とエッジ対応を強化