HyperAIHyperAI
منذ 11 أيام

الحفر العميق في التعميم لتقدير العمق الأحادي المعتمد على التعلم الذاتي

Jinwoo Bae, Sungho Moon, Sunghoon Im
الحفر العميق في التعميم لتقدير العمق الأحادي المعتمد على التعلم الذاتي
الملخص

تم دراسة تقدير العمق من منظور مفرد ذاتي التدريب بشكل واسع في الآونة الأخيرة. ركزت معظم الأبحاث على تحسين الأداء على مجموعات البيانات القياسية، مثل KITTI، لكنها قدمت عددًا محدودًا من التجارب المتعلقة بأداء التعميم. في هذا البحث، نستكشف الشبكات الأساسية (مثل الشبكات العصبية التلافيفية CNNs، والمحولات Transformers، والنموذج الهجين المُدمج بين CNNs وTransformers) من أجل تحسين قدرة تقدير العمق من منظور مفرد على التعميم. أولاً، نقيّم النماذج المتطورة حديثًا على مجموعات بيانات عامة متنوعة لم تُستخدم أبدًا أثناء تدريب الشبكة. ثم نستعرض تأثير التمثيلات المُهيمنة على النسيج (texture-biased) والتمثيلات المُهيمنة على الشكل (shape-biased) باستخدام مجموعات بيانات مُعدّلة نسبيًا من حيث النسيج، التي أنشأناها خصيصًا. ولاحظنا أن المحولات (Transformers) تُظهر انحيازًا قويًا نحو الشكل، بينما تُظهر الشبكات العصبية التلافيفية (CNNs) انحيازًا قويًا نحو النسيج. كما لاحظنا أن النماذج المُهيمنة على الشكل تُظهر أداءً أفضل في التعميم مقارنة بالنماذج المُهيمنة على النسيج في تقدير العمق من منظور مفرد. استنادًا إلى هذه الملاحظات، قمنا بتصميم شبكة هجينة جديدة تجمع بين CNN وTransformers، تُسمى MonoFormer، تتضمن وحدة تكامل مُتكيفة متعددة المستويات للميزات. يرتكز التصميم على فكرة تعزيز الانحياز نحو الشكل من خلال استخدام المحولات، مع تعويض الضعف في التحيز المحلي الخاص بالمحولات من خلال دمج متكيف لممثّلات متعددة المستويات. أظهرت التجارب الواسعة أن الطريقة المقترحة تحقق أداءً متفوقًا على مستوى الحد الأقصى (state-of-the-art) على عدة مجموعات بيانات عامة، كما تُظهر أفضل قدرة على التعميم مقارنة بالطرق التنافسية الأخرى.

الحفر العميق في التعميم لتقدير العمق الأحادي المعتمد على التعلم الذاتي | أحدث الأوراق البحثية | HyperAI