HyperAIHyperAI

Command Palette

Search for a command to run...

simCrossTrans: تقنية بسيطة للتعلم النقل بين الأصناف للكشف عن الكائنات باستخدام شبكات الـ ConvNets أو متحولات الرؤية (Vision Transformers)

Shen Xiaoke ; Stamos Ioannis

الملخص

يُستخدم التعلم النقل (transfer learning) على نطاق واسع في رؤية الحاسوب (CV) ومعالجة اللغة الطبيعية (NLP)، وقد حقق نجاحًا كبيرًا. تعتمد معظم أنظمة التعلم النقل على نفس الوسيلة (مثل صورة RGB في رؤية الحاسوب ونص في معالجة اللغة الطبيعية). ومع ذلك، فإن أنظمة التعلم النقل بين الوسائط المختلفة (CMTL) نادرة. في هذا البحث، ندرس CMTL من البعدين إلى البعد الثالث لاستكشاف أداء الأنظمة التي تعتمد فقط على المستشعرات ثلاثية الأبعاد، والتي تلعب أدوارًا حاسمة في الملاحة الروبوتية وتؤدي بشكل جيد في السيناريوهات ذات الإضاءة المنخفضة. بينما تكون معظم خطوط الأنابيب CMTL من البعدين إلى البعد الثالث معقدة وتعتمد على شبكات العصب الاصطناعية المتكررة (ConvNets)، فإن نظامنا سهل التنفيذ والتوسيع ويعتمد على كل من ConvNets ومحولات الرؤية (ViTs): 1) عن طريق تحويل السحب النقاطية إلى صور شبه حقيقية، يمكننا استخدام شبكة متطابقة تقريبًا من نماذج تم تدريبها مسبقًا بناءً على صور ثنائية الأبعاد. وهذا يجعل نظامنا سهل التنفيذ والتوسيع. 2) أظهرت ViTs مؤخرًا أداءً جيدًا ومتانة ضد الإخفاء، وهو أحد الأسباب الرئيسية لسوء أداء أنظمة الرؤية ثلاثية الأبعاد. قمنا باستكشاف كل من ViT وConvNet بحجم نموذج مشابه للتحقيق في الفروق في الأداء. سمينا اقتراحنا simCrossTrans: التعلم النقل البيني-وسائطي البسيط باستخدام ConvNets أو ViTs.أظهرت التجارب على مجموعة بيانات SUN RGB-D: باستخدام simCrossTrans، حققنا زيادة أداء مطلقة بنسبة 13.2%13.2\%13.2% و16.1%16.1\%16.1% بناءً على ConvNets وViTs على حدة. كما لاحظنا أن النظام القائم على ViTs يتفوق بنسبة 9.7%9.7\%9.7% على النظام القائم على ConvNets، مما يدل على قوة simCrossTrans عند استخدام ViT. يتجاوز simCrossTrans مع ViTs الحالة السابقة لأفضل ما هو موجود (SOTA) بمعدل كبير يبلغ +15.4%+15.4\%+15.4% mAP50. بالمقارنة مع أفضل ما هو موجود سابقًا في الكشف عن الصور ثنائية الأبعاد القائم على صور RGB، فإن نظامنا القائم فقط على صور العمق لديه فجوة تبلغ 1%1\%1%. يتم توفير الشفرة البرمجية والسجلات الخاصة بالتدريب والاستدلال والنماذج بشكل عام عبر الرابط:https://github.com/liketheflower/simCrossTrans


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
simCrossTrans: تقنية بسيطة للتعلم النقل بين الأصناف للكشف عن الكائنات باستخدام شبكات الـ ConvNets أو متحولات الرؤية (Vision Transformers) | مستندات | HyperAI