HyperAIHyperAI

Command Palette

Search for a command to run...

NVIDIA GPU上BEV池化算子的优化与加速

针对自动驾驶与机器人视觉广泛采用的鸟瞰图(BEV)感知架构,NVIDIA近日发布BEVPoolV3优化方案,旨在攻克BEV Pooling算子的性能瓶颈。该算子负责将多路摄像头特征投影至统一空间网格,但因不规则访存与散列归约特性,长期制约系统实时性。BEVPoolV3通过减少重复深度加载、采用五数组INT32散列映射、预计算索引消除运行时除法,以及区间独享写入避免原子操作四大核心机制实现突破。 该方案配套一套标准化调优工作流:依据目标GPU的L2缓存容量判定内存特征,DRAM受限架构侧重数据压缩与缓存保真,L2驻留架构则聚焦提升并发度、向量化加载与FP8精度专用化。经TensorRT部署与Nsight Compute实测,BEVPoolV3性能提升显著:较上一代基线在RTX A6000与RTX PRO 6000 Blackwell平台上实现11至42倍加速,单步延迟最低降至16.4微秒。该成果为物理AI系统的实时感知与规划管线注入关键算力,并为其他高密集散列算子的内核优化确立了可复现的工程范式。

相关链接