MLCVNet: نموذج Multi-Level Context VoteNet للكشف عن الأجسام ثلاثية الأبعاد

في هذه الورقة، نعالج مهمة الكشف عن الكائنات الثلاثية الأبعاد من خلال استيعاب معلومات سياقية متعددة المستويات باستخدام آلية الانتباه الذاتي ودمج الميزات متعددة المقياس. تعتمد معظم الطرق الحالية للكشف عن الكائنات الثلاثية الأبعاد على تمييز الكائنات بشكل منفصل، دون أخذ أي اعتبار للمعلومات السياقية بين هذه الكائنات. على النقيض من ذلك، نقترح نموذج MLCVNet (نظام التصويت متعدد المستويات للسياق) لتمييز الكائنات الثلاثية الأبعاد بشكل تكاملي، مستندًا إلى نموذج VoteNet المتطور. نُدخل ثلاث وحدات سياقية في مراحل التصويت والتصنيف في نموذج VoteNet لترميز المعلومات السياقية على مستويات مختلفة. بشكل خاص، تُستخدم وحدة السياق بين البُقع (PPC) لالتقاط المعلومات السياقية بين البُقع النقطية قبل التصويت على نقاط مركز الكائنات المرتبطة بها. ثم، تُدمج وحدة السياق بين الكائنات (OOC) قبل مرحلة اقتراح الكائنات والتصنيف، بهدف التقاط المعلومات السياقية بين المرشحات الكائنية. وأخيرًا، تم تصميم وحدة السياق السيني العالمي (GSC) لتعلم السياق العام للمنظر. نُظهر ذلك من خلال التقاط المعلومات السياقية على مستويات البُقع، والكائنات، والمنظر. يُعد هذا النهج وسيلة فعّالة لتحسين دقة الكشف، ويحقق أداءً جديدًا على مستوى التقنية في مجموعات بيانات الكشف عن الكائنات الثلاثية الأبعاد الصعبة، مثل SUN RGBD وScanNet. كما نُطلق كودنا المصدري على الرابط التالي: https://github.com/NUAAXQ/MLCVNet.