HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA GPU向けBEVプーリングを加速する

NVIDIAは鳥瞰図(BEV)知能の処理遅延を解消する「BEVPoolV3」最適化フレームワークを発表した。複数カメラ画像を深度情報と統合するBEVプーリングは、不規則なメモリアクセスと散乱集約処理がボトルネックとなっていた。本手法は重複読み込み削減、5配列INT32スキャターマップ採用、事前計算インデックスによる除算廃止、インターバル単位出力書き込みを実装した。RTX A6000とRTX PRO 6000 Blackwell Max-Qでの検証では、前者のDRAM環境でFP16により最大22倍、L2キャッシュ環境のBlackwellでFP8により最大42倍の性能向上を達成した。精度検証は完了しTensorRTプラグインとして公開中だ。本手法の核心は再現可能な最適化ワークフローにある。ワークセット容量でメモリレームを分類し、Nsight Computeでボトルネックを検証する。DRAM環境ではバイト削減とキャッシュ維持型出力を優先し、L2環境では事前計算とFP8特化内ループを採用する。エッジ向け「DRIVE AGX Thor」ではFP16経路が移植可能だが、FP8性能はハードウェア依存性が大きく個別調整が必須となる。同手法は散乱集約処理全般に適用可能であり、空間知能の推論基盤を強化する。

関連リンク