Command Palette
Search for a command to run...
ImVoteNet: تعزيز الكشف عن الكائنات ثلاثية الأبعاد في السحابات النقطية باستخدام الاقتراعات الصورية
ImVoteNet: تعزيز الكشف عن الكائنات ثلاثية الأبعاد في السحابات النقطية باستخدام الاقتراعات الصورية
Charles R. Qi Xinlei Chen Or Litany Leonidas J. Guibas
الملخص
شهد الكشف عن الأجسام ثلاثية الأبعاد تقدماً سريعاً بفضل التطورات في التعلم العميق على السحاب النقطية (point clouds). وقد أظهرت بعض الدراسات الحديثة حتى أداءً متقدماً جداً باستخدام مدخلات السحاب النقطية وحدها (مثل نموذج VoteNet). ومع ذلك، تتمتع بيانات السحاب النقطية بقيود طبيعية، حيث تكون نادرة (sparsely distributed)، وتفتقر إلى معلومات الألوان، وغالباً ما تعاني من ضوضاء الحساسات. في المقابل، تتميز الصور بدقة عالية وتفاصيل نسيجية غنية، ما يجعلها قادرة على مكملة البنية ثلاثية الأبعاد التي توفرها السحاب النقطية. ومع ذلك، لا يزال السؤال حول كيفية استخدام المعلومات المرئية بشكل فعّال لدعم الكشف القائم على السحاب النقطية مفتوحاً. في هذا العمل، نبني على نموذج VoteNet ونقترح معمارية كشف ثلاثية الأبعاد تُسمى ImVoteNet، مصممة خصيصاً للسياقات RGB-D. تعتمد ImVoteNet على دمج الاحتمالات ثنائية الأبعاد (2D votes) المستمدة من الصور مع الاحتمالات ثلاثية الأبعاد (3D votes) المستمدة من السحاب النقطية. وعلى عكس الدراسات السابقة في الكشف متعدد الوسائط، نستخرج صراحةً كلاً من السمات الهندسية (geometric features) والسمات الدلالية (semantic features) من الصور ثنائية الأبعاد. ونستفيد من معاملات الكاميرا لرفع هذه السمات إلى الفضاء ثلاثي الأبعاد. ولتحسين التآزر بين دمج السمات ثنائية وثلاثية الأبعاد، نقترح أيضاً نموذجاً تدريبياً متعدد الأبراج (multi-tower training scheme). وقد قمنا بتوثيق نموذجنا على مجموعة بيانات SUN RGB-D الصعبة، مما مكّننا من تحقيق تقدم بـ 5.7 نقطة في مقياس mAP مقارنة بأفضل النتائج السابقة. كما قدمنا دراسات تحليلية متعددة (ablation studies) غنية لتحليل مساهمة كل خيار تصميمي.