تسريع تجميع BEV على معالجات NVIDIA
أعلنت شركة نVIDIA عن تطوير خوارزمية BEVPoolV3 المتخصصة في تسريع عمليات تجميع الرؤية من منظور علوي، وهي تقنية حيوية تعمل على تحويل ميزات الكاميرات المتعددة في مركبات القيادة الذاتية والروبوتات إلى تمثيل موحد وفوري. يهدف هذا التطوير إلى تجاوز الاختناقات الحسابية التي تعيق أداء نماذج الإدراك المكاني، حيث توفر الخوارزمية مساراً فعالاً للنشر يعتمد على تحليل سلوك الذاكرة ومطابقة التنفيذ مع بنية المعالج الرسومي المستهدف. تعتمد عملية تجميع الرؤية من منظور علوي على توزيع الميزات المدعومة بالعمق عبر شبكة موحدة، مما يسمح لوحات التبعيات والتخطيط بالعمل على بيئة مكانية متناسقة. تركز BEVPoolV3 على معالجة كفاءة عمليات الجلب والتشتت العشوائية من خلال أربعة تحسينات جوهرية: تقليل أحمال بيانات العمق المكررة، استخدام خريطة تشتت مكونة من خمسة مصفوفات رقمية، تخزين الفهرس مسبقاً لاستبعاد القسمة الحسابية في وقت التشغيل، وكتابة النواتج حسب الفترات الزمنية لتجنب عمليات التجميع الذري المتزامنة. أظهرت التجارب على معالجات نVIDIA RTX A6000 وRTX PRO 6000 Blackwell Max-Q أن أداء الخوارزمية يرتبط ارتباطاً وثيقاً بسعة ذاكرة التخزين المؤقت من المستوى الثاني. في أنظمة صغيرة الذاكرة مثل Ampere، تسود قيود عرض النطاق الترددي للذاكرة الرئيسية، مما يستدعي التركيز على تقليل حجم البيانات واستخدام تخزين مؤقت محفوظ للذاكرة. في المقابل، تتيح ذاكرة L2 الضخمة في معالجات Blackwell الاستفادة القصوى من الدقة FP8، حيث حققت BEVPoolV3 تسارعات تصل إلى 42 ضعفاً مقارنة بالإصدارات السابقة في أحمال العمل الثقيلة، بينما سجلت تحسينات تتراوح بين 11 إلى 22 ضعفاً على معالجات الجيل السابق. تقدم الورقة التقنية إطار عمل منهجي لتطوير معالجات الجذب والتشتت، يبدأ بتصنيف وضع الذاكرة، يليه حذف حركة البيانات الزائدة، ثم تهيئة نواة الحوسبة وفق ظروف العتاد، وأخيراً التحقق من الاختناقات عبر أداة Nsight Compute. تم دمج الخوارزمية كإضافة لـ TensorRT، مما يضمن التوافق مع بيئات النشر الحالية مع الحفاظ على الدقة الرقمية تحت عتبة خطأ مقبولة. تشير النتائج إلى أن دقة FP8 تمثل الخيار الأمثل للأحمال التي تتركز في الذاكرة المؤقتة، بينما تظل الدقة NVFP4 مناسبة أكثر لعمليات الضرب المصفوفي المكثفة حسابياً. يمتد تطبيق هذا الإطار إلى منصات الحافة مثل DRIVE AGX Thor، مع التأكيد على أن تحقيق قفزات الأداء تعتمد على ضبط نواة الحوسبة بدقة وفقاً للقيود المحلية. يمثل BEVPoolV3 خطوة عملية نحو تمكين أنظمة الذكاء المكاني من معالجة البيانات الحسية في الوقت الفعلي، مؤكداً على أهمية تصميم الخوارزميات بما يتناغم مع الخصائص الفيزيائية للعتاد المستهدف.
