HyperAIHyperAI
منذ 2 أشهر

FB-OCC: التنبؤ بالاحتلال ثلاثي الأبعاد باستخدام تحويلات الرؤية الأمامية-الخلفية

Zhiqi Li; Zhiding Yu; David Austin; Mingsheng Fang; Shiyi Lan; Jan Kautz; Jose M. Alvarez
FB-OCC: التنبؤ بالاحتلال ثلاثي الأبعاد باستخدام تحويلات الرؤية الأمامية-الخلفية
الملخص

هذا التقرير الفني يلخص الحل الفائز في تحدي التنبؤ بالاحتلال ثلاثي الأبعاد، والذي أقيم بالتعاون مع ورشة عمل CVPR 2023 حول القيادة الذاتية من النهاية إلى النهاية وورشة عمل CVPR 23 حول القيادة الذاتية المستندة إلى الرؤية. يعتمد حلنا المقترح FB-OCC على FB-BEV، وهو تصميم متقدم للرؤية من أعلى باستخدام الكاميرا مع استخدام الإسقاط الأمامي-الخلفي. بالإضافة إلى FB-BEV، قمنا بدراسة تصاميم جديدة وتحسينات مخصصة لمهمة التنبؤ بالاحتلال ثلاثي الأبعاد، بما في ذلك التدريب المسبق المشترك للعمق والمعنى (joint depth-semantic pre-training)، تمثيل الفوكسل-الرؤية من أعلى (joint voxel-BEV representation)، زيادة حجم النموذج (model scaling up)، واستراتيجيات المعالجة ما بعد الفعالة. أدت هذه التصاميم والتحسينات إلى تحقيق درجة mIoU رائدة تبلغ 54.19% على مجموعة بيانات nuScenes، مما وضعنا في المركز الأول في مسار التحدي. سيتم نشر الكود والنموذج على الرابط التالي: https://github.com/NVlabs/FB-BEV.

FB-OCC: التنبؤ بالاحتلال ثلاثي الأبعاد باستخدام تحويلات الرؤية الأمامية-الخلفية | أحدث الأوراق البحثية | HyperAI