HyperAIHyperAI

Command Palette

Search for a command to run...

TransDSSL: تقييم العمق المستند إلى المحول من خلال التعلم ذاتي التوجيه

Yukyung Choi Soomnim Hwang Namil Kim Jeongmin Shin Daechan Han

الملخص

في الآونة الأخيرة، تم اعتماد نماذج المحولات (Transformers) على نطاق واسع في مهام الرؤية الحاسوبية المختلفة، وظهرت نتائج واعدة بفضل قدرتها الفعّالة على تمثيل الاعتماديات المكانية الطويلة المدى داخل الصورة. ومع ذلك، لا تزال هناك عدد قليل جدًا من الدراسات التي تتناول استخدام المحولات في تقدير العمق ذاتي التدريب (Self-supervised Depth Estimation). عند استبدال بنية الشبكة العصبية التلافيفية (CNN) بمحول في تعلم العمق ذاتي التدريب، نواجه عدة تحديات، مثل مشكلة دالة الخسارة الفوتوغرافية متعددة المقياس التي تُظهر سلوكًا غير مستقر عند استخدامها مع المحولات، بالإضافة إلى ضعف القدرة على اكتشاف التفاصيل المحلية. في هذا البحث، نقترح وحدة فك ترميز تعتمد على الانتباه تُسمى "الانتباه المخصص للبكسل" (Pixel-Wise Skip Attention - PWSA)، والتي تهدف إلى تعزيز التفاصيل الدقيقة في خرائط الميزات مع الحفاظ على السياق العام المُستمد من المحولات. علاوةً على ذلك، نقترح استخدام خسارة التقطيع الذاتي (Self-distillation Loss) مع خسارة فوتوغرافية مقياس واحد لتخفيف عدم استقرار تدريب المحولات من خلال توفير إشارات تدريب صحيحة. نُظهر أن النموذج المقترح يحقق تنبؤات دقيقة للأشياء الكبيرة والهياكل الرفيعة التي تتطلب كلاً من السياق العام والتفاصيل المحلية. ويحقق نموذجنا أداءً متفوقًا على مستوى التقنيات الحالية في تقدير العمق الأحادي ذاتي التدريب على معايير KITTI وDDAD.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp