HyperAIHyperAI
منذ 11 أيام

TransDSSL: تقييم العمق المستند إلى المحول من خلال التعلم ذاتي التوجيه

{Yukyung Choi, Soomnim Hwang, Namil Kim, Jeongmin Shin, Daechan Han}
الملخص

في الآونة الأخيرة، تم اعتماد نماذج المحولات (Transformers) على نطاق واسع في مهام الرؤية الحاسوبية المختلفة، وظهرت نتائج واعدة بفضل قدرتها الفعّالة على تمثيل الاعتماديات المكانية الطويلة المدى داخل الصورة. ومع ذلك، لا تزال هناك عدد قليل جدًا من الدراسات التي تتناول استخدام المحولات في تقدير العمق ذاتي التدريب (Self-supervised Depth Estimation). عند استبدال بنية الشبكة العصبية التلافيفية (CNN) بمحول في تعلم العمق ذاتي التدريب، نواجه عدة تحديات، مثل مشكلة دالة الخسارة الفوتوغرافية متعددة المقياس التي تُظهر سلوكًا غير مستقر عند استخدامها مع المحولات، بالإضافة إلى ضعف القدرة على اكتشاف التفاصيل المحلية. في هذا البحث، نقترح وحدة فك ترميز تعتمد على الانتباه تُسمى "الانتباه المخصص للبكسل" (Pixel-Wise Skip Attention - PWSA)، والتي تهدف إلى تعزيز التفاصيل الدقيقة في خرائط الميزات مع الحفاظ على السياق العام المُستمد من المحولات. علاوةً على ذلك، نقترح استخدام خسارة التقطيع الذاتي (Self-distillation Loss) مع خسارة فوتوغرافية مقياس واحد لتخفيف عدم استقرار تدريب المحولات من خلال توفير إشارات تدريب صحيحة. نُظهر أن النموذج المقترح يحقق تنبؤات دقيقة للأشياء الكبيرة والهياكل الرفيعة التي تتطلب كلاً من السياق العام والتفاصيل المحلية. ويحقق نموذجنا أداءً متفوقًا على مستوى التقنيات الحالية في تقدير العمق الأحادي ذاتي التدريب على معايير KITTI وDDAD.

TransDSSL: تقييم العمق المستند إلى المحول من خلال التعلم ذاتي التوجيه | أحدث الأوراق البحثية | HyperAI