HyperAIHyperAI

Command Palette

Search for a command to run...

استغلال الخبرة متعددة الوسائط المركزية حول الرؤية للكشف عن الأجسام ثلاثية الأبعاد

Linyan Huang Zhiqi Li Chonghao Sima Wenhai Wang Jingdong Wang Yu Qiao Hongyang Li

الملخص

تُكرس الأبحاث الحالية بشكل رئيسي جهودها لتحسين دقة كاشفات الأشياء ثلاثية الأبعاد التي تعتمد فقط على الكاميرا (الطالب) من خلال نقل المعرفة من النماذج القائمة على ليدار أو متعددة الوسائط (الخبير). ومع ذلك، فإن وجود فجوة مجالية بين سمات ليدار والكاميرات، إلى جانب التناقض المتأصل في دمج البيانات الزمنية، يعيق بشكل كبير فعالية تحسينات التحويل القائمة على التعلم النقل (distillation) للطلاب. مستوحى من نجاح التحويل أحادي الوسائط، فإن نموذج خبير صديق للطالب ينبغي أن يعتمد بشكل رئيسي على سمات الكاميرا، مع الحفاظ على أداء مماثل للنماذج متعددة الوسائط. ولتحقيق هذا الهدف، نقدّم VCD، وهي إطار عمل لتحسين نموذج الطالب الذي يعتمد فقط على الكاميرا، يتضمن خبيرًا متعدد الوسائط صديقًا للطالب، ورقابة تعلم نقل صديقة للدمج الزمني. يعتمد الخبير المتعدد الوسائط VCD-E على هيكل متماثل مع نموذج الطالب الذي يعتمد فقط على الكاميرا، بهدف تقليل الفرق في السمات، ويستفيد من مدخل ليدار كمعلومة أولية للعمق لإعادة بناء المشهد ثلاثي الأبعاد، مما يحقق أداءً مماثلاً للنماذج المتعددة الوسائط الأخرى غير المتجانسة. علاوةً على ذلك، نُقدّم وحدة تعلم نقل مفصلة تعتمد على المسارات (trajectory-based) لتصحيح انحراف الحركة لكل كائن في المشهد بشكل منفصل. وبفضل هذه التحسينات، يُحقّق نموذج الطالب الذي يعتمد فقط على الكاميرا VCD-A أداءً جديدًا في مستوى الحالة الحالية (state-of-the-art) على مجموعة بيانات nuScenes، بدرجة تبلغ 63.1% NDS.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp