منذ 8 أشهر

الملخص

يُستخدم التعلم النقل (transfer learning) على نطاق واسع في رؤية الحاسوب (CV) ومعالجة اللغة الطبيعية (NLP)، وقد حقق نجاحًا كبيرًا. تعتمد معظم أنظمة التعلم النقل على نفس الوسيلة (مثل صورة RGB في رؤية الحاسوب ونص في معالجة اللغة الطبيعية). ومع ذلك، فإن أنظمة التعلم النقل بين الوسائط المختلفة (CMTL) نادرة. في هذا البحث، ندرس CMTL من البعدين إلى البعد الثالث لاستكشاف أداء الأنظمة التي تعتمد فقط على المستشعرات ثلاثية الأبعاد، والتي تلعب أدوارًا حاسمة في الملاحة الروبوتية وتؤدي بشكل جيد في السيناريوهات ذات الإضاءة المنخفضة. بينما تكون معظم خطوط الأنابيب CMTL من البعدين إلى البعد الثالث معقدة وتعتمد على شبكات العصب الاصطناعية المتكررة (ConvNets)، فإن نظامنا سهل التنفيذ والتوسيع ويعتمد على كل من ConvNets ومحولات الرؤية (ViTs): 1) عن طريق تحويل السحب النقاطية إلى صور شبه حقيقية، يمكننا استخدام شبكة متطابقة تقريبًا من نماذج تم تدريبها مسبقًا بناءً على صور ثنائية الأبعاد. وهذا يجعل نظامنا سهل التنفيذ والتوسيع. 2) أظهرت ViTs مؤخرًا أداءً جيدًا ومتانة ضد الإخفاء، وهو أحد الأسباب الرئيسية لسوء أداء أنظمة الرؤية ثلاثية الأبعاد. قمنا باستكشاف كل من ViT وConvNet بحجم نموذج مشابه للتحقيق في الفروق في الأداء. سمينا اقتراحنا simCrossTrans: التعلم النقل البيني-وسائطي البسيط باستخدام ConvNets أو ViTs.أظهرت التجارب على مجموعة بيانات SUN RGB-D: باستخدام simCrossTrans، حققنا زيادة أداء مطلقة بنسبة $13.2\%$ و $16.1\%$ بناءً على ConvNets وViTs على حدة. كما لاحظنا أن النظام القائم على ViTs يتفوق بنسبة $9.7\%$ على النظام القائم على ConvNets، مما يدل على قوة simCrossTrans عند استخدام ViT. يتجاوز simCrossTrans مع ViTs الحالة السابقة لأفضل ما هو موجود (SOTA) بمعدل كبير يبلغ $+15.4\%$ mAP50. بالمقارنة مع أفضل ما هو موجود سابقًا في الكشف عن الصور ثنائية الأبعاد القائم على صور RGB، فإن نظامنا القائم فقط على صور العمق لديه فجوة تبلغ $1\%$ . يتم توفير الشفرة البرمجية والسجلات الخاصة بالتدريب والاستدلال والنماذج بشكل عام عبر الرابط:https://github.com/liketheflower/simCrossTrans

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Shen Xiaoke ; Stamos Ioannis

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Shen Xiaoke ; Stamos Ioannis

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Shen Xiaoke ; Stamos Ioannis

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

simCrossTrans: تقنية بسيطة للتعلم النقل بين الأصناف للكشف عن الكائنات باستخدام شبكات الـ ConvNets أو متحولات الرؤية (Vision Transformers)

Shen Xiaoke ; Stamos Ioannis

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

simCrossTrans: تقنية بسيطة للتعلم النقل بين الأصناف للكشف عن الكائنات باستخدام شبكات الـ ConvNets أو متحولات الرؤية (Vision Transformers)

Shen Xiaoke ; Stamos Ioannis

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

simCrossTrans: تقنية بسيطة للتعلم النقل بين الأصناف للكشف عن الكائنات باستخدام شبكات الـ ConvNets أو متحولات الرؤية (Vision Transformers)

Shen Xiaoke ; Stamos Ioannis

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters