BAAM: إعادة بناء الوضعية والشكل ثلاثي الأبعاد من صورة واحدة باستخدام وحدة الانتباه ثنائي السياق ونمذجة موجهة بالانتباه

تشمل المشهد المروري ثلاثي الأبعاد معلومات ثلاثية الأبعاد متنوعة حول كائنات السيارات، بما في ذلك وضعها (pose) وشكلها (shape). ومع ذلك، تولي الدراسات الحديثة نسبيًا اهتمامًا أقل بإعادة بناء الأشكال التفصيلية. علاوة على ذلك، تتعامل معظم هذه الدراسات مع كل كائن ثلاثي الأبعاد بشكل مستقل، مما يؤدي إلى فقدان السياق النسبي بين الكائنات والسياق العام للمشهد الذي يعكس ظروف الطرق. في هذا العمل، نقترح خوارزمية جديدة لإعادة بناء الوضع والشكل ثلاثي الأبعاد باستخدام منظور واحد (monocular)، تُعرف بـ BAAM (النموذج القائم على الانتباه ثنائي السياق والتوجيه بالانتباه). أولاً، وباستخدام العناصر ثنائية الأبعاد الأساسية (2D primitives)، نعيد بناء شكل الكائن ثلاثي الأبعاد من خلال نموذج موجه بالانتباه، والذي يأخذ بعين الاعتبار العلاقة بين الكائنات المكتشفة ونماذج الشكل المسبقة للمركبات. ثانيًا، نقدّر وضع الكائن ثلاثي الأبعاد باستخدام الانتباه ثنائي السياق، الذي يستفيد من السياق النسبي بين الكائنات والسياق العام بين الكائن والبيئة الطرقية المحيطة. أخيرًا، نقترح خوارزمية لإزالة الكائنات الوهمية (spurious objects) باستخدام تثبيط القصوى ثلاثي الأبعاد (3D non maximum suppression)، بناءً على المسافة في منظور الطيور (Bird-Eye-View). تُظهر التجارب الواسعة أن الخوارزمية المقترحة BAAM تحقق أداءً متقدمًا على مستوى الحد الأقصى في مجموعة بيانات ApolloCar3D. كما تُظهر النتائج أن BAAM يمكن دمجها بسهولة في أي كاشف كائن ثلاثي الأبعاد مبني على منظور واحد ناضج في مجموعة بيانات KITTI، وتحسّن بشكل كبير من أداء هذه الكاشفات.