HyperAIHyperAI
منذ 2 أشهر

simCrossTrans: تقنية بسيطة للتعلم النقل بين الأصناف للكشف عن الكائنات باستخدام شبكات الـ ConvNets أو متحولات الرؤية (Vision Transformers)

Shen, Xiaoke ; Stamos, Ioannis
simCrossTrans: تقنية بسيطة للتعلم النقل بين الأصناف للكشف عن الكائنات باستخدام شبكات الـ ConvNets أو متحولات الرؤية (Vision Transformers)
الملخص

يُستخدم التعلم النقل (transfer learning) على نطاق واسع في رؤية الحاسوب (CV) ومعالجة اللغة الطبيعية (NLP)، وقد حقق نجاحًا كبيرًا. تعتمد معظم أنظمة التعلم النقل على نفس الوسيلة (مثل صورة RGB في رؤية الحاسوب ونص في معالجة اللغة الطبيعية). ومع ذلك، فإن أنظمة التعلم النقل بين الوسائط المختلفة (CMTL) نادرة. في هذا البحث، ندرس CMTL من البعدين إلى البعد الثالث لاستكشاف أداء الأنظمة التي تعتمد فقط على المستشعرات ثلاثية الأبعاد، والتي تلعب أدوارًا حاسمة في الملاحة الروبوتية وتؤدي بشكل جيد في السيناريوهات ذات الإضاءة المنخفضة. بينما تكون معظم خطوط الأنابيب CMTL من البعدين إلى البعد الثالث معقدة وتعتمد على شبكات العصب الاصطناعية المتكررة (ConvNets)، فإن نظامنا سهل التنفيذ والتوسيع ويعتمد على كل من ConvNets ومحولات الرؤية (ViTs): 1) عن طريق تحويل السحب النقاطية إلى صور شبه حقيقية، يمكننا استخدام شبكة متطابقة تقريبًا من نماذج تم تدريبها مسبقًا بناءً على صور ثنائية الأبعاد. وهذا يجعل نظامنا سهل التنفيذ والتوسيع. 2) أظهرت ViTs مؤخرًا أداءً جيدًا ومتانة ضد الإخفاء، وهو أحد الأسباب الرئيسية لسوء أداء أنظمة الرؤية ثلاثية الأبعاد. قمنا باستكشاف كل من ViT وConvNet بحجم نموذج مشابه للتحقيق في الفروق في الأداء. سمينا اقتراحنا simCrossTrans: التعلم النقل البيني-وسائطي البسيط باستخدام ConvNets أو ViTs.أظهرت التجارب على مجموعة بيانات SUN RGB-D: باستخدام simCrossTrans، حققنا زيادة أداء مطلقة بنسبة $13.2\%$ و$16.1\%$ بناءً على ConvNets وViTs على حدة. كما لاحظنا أن النظام القائم على ViTs يتفوق بنسبة $9.7\%$ على النظام القائم على ConvNets، مما يدل على قوة simCrossTrans عند استخدام ViT. يتجاوز simCrossTrans مع ViTs الحالة السابقة لأفضل ما هو موجود (SOTA) بمعدل كبير يبلغ $+15.4\%$ mAP50. بالمقارنة مع أفضل ما هو موجود سابقًا في الكشف عن الصور ثنائية الأبعاد القائم على صور RGB، فإن نظامنا القائم فقط على صور العمق لديه فجوة تبلغ $1\%$. يتم توفير الشفرة البرمجية والسجلات الخاصة بالتدريب والاستدلال والنماذج بشكل عام عبر الرابط:https://github.com/liketheflower/simCrossTrans